به گزارش رکنا، در سالهای اخیر، هوش مصنوعی در عرصههای مختلف علمی، بهویژه ریاضیات، به پیشرفتهای قابلتوجهی دست یافته است. اما آیا این فناوری میتواند توانایی استدلال و حل مسائل پیچیدهی ریاضی را، مشابه ذهن انسان، به نمایش بگذارد؟ این پرسش اکنون به یکی از چالشهای مهم تبدیل شده است.
چالش ریاضی برای مدلهای هوش مصنوعی
مطالعات نشان دادهاند که مدلهای پیشرفتهای مانند ChatGPT در آزمونهای ریاضی کلاسیک از جمله AIME و HMMT که تنها بهدنبال پاسخ نهایی هستند، عملکرد قابلقبولی داشتهاند. اما چنین آزمونهایی الزاما نمیتوانند توانایی منطقی و مهارت استدلالی این مدلها را بهصورت عمیق ارزیابی کنند. ارائهی اثباتهای دقیق مرحلهبهمرحله نیازمند قدرتی فراتر از محاسبهی پاسخ نهایی است.
در همین راستا، پژوهشی بر عملکرد مدلهای زبانی بزرگ در یکی از پیچیدهترین رقابتهای ریاضی، یعنی المپیاد ریاضی آمریکا (USAMO)، انجام شده است. نتایج نشان میدهد که حتی مدرنترین مدلها در این آزمون با چالشهای جدی روبرو شدهاند و میانگین امتیاز آنها کمتر از ۵ درصد بوده است. اما چرا؟
عملکرد ضعیف هوش مصنوعی در آزمون USAMO
پژوهشگران برای ارزیابی عملکرد مدلها، مسائل پیچیدهی USAMO را در دستور کار قرار دادند. این رقابت از شرکتکنندگان میخواهد اثباتهای کامل، دقیق و منطقی ارائه دهند. بررسیهای انجامشده نشان داد که مدلها، بهرغم قدرت محاسباتی، در درک و ارائهی استدلالهای خلاقانه و منطقی ضعفهای عمدهای داشتهاند.
نتیجه این بود که مدلها نتوانستند این آزمون را بهطور موفقیتآمیز پشت سر بگذارند. نتیجهی ضعیف کمتر از ۵ درصد بهوضوح نشان میدهد که آنها محدودیتهای جدی در مسائل استدلالی و پیچیدهی ریاضی دارند.
شکست در حل مسائل اثباتی
برای بررسی قابلیتهای مدلها، شش مسئلهی جدید از USAMO 2025 انتخاب شد؛ مسائلی که مدلها در مراحل قبلی آموزش با آن مواجه نشده بودند. این مسائل به مدلهای پیشرفته ارائه شد و هر مسئله چهار بار توسط هر مدل حل شد. انتظار میرفت برخی مدلها عملکرد قابلتوجهی ارائه دهند، اما حتی یک مدل هم موفق به حل کامل یکی از مسائل نشد.
نتیجهی مجموع تلاشها نشان داد عملکرد مدلها، بهشدت ضعیف بوده و از سطح استدلال انسانی فاصلهی زیادی دارد. تمامی مشکلات عمدهای مانند ضعف منطقی، فرضیات نادرست و عدم خلاقیت در پاسخها دیده شد.
دلایل شکست مدلهای هوش مصنوعی در ریاضیات
بررسیهای دقیقتر نشان داد که خطاهای مدلها در چهار دستهی اصلی طبقهبندی میشوند:
1. خطاهای منطقی: ناتوانی در ارائهی استدلالهای دقیق و جامع.
2. فرضیات نادرست: ایجاد فرضهای بیدلیل و بدون پشتوانهی کافی.
3. ضعف در خلاقیت: محدودیت در ارائهی دیدگاههای نو برای حل مسائل.
4. اشتباهات جبری: اشتباه در محاسبات عددمحور یا جبری.
فقدان منطق در استدلال
توضیح بیشتر نشان داد که مدلها معمولاً بدون ارائهی دلیل کافی، به نتیجهگیری میرسند. یکی از اشتباهات رایج، جهشهای منطقی بیپشتوانه بود؛ بهطوریکه مدلها مسیری منطقی را نادیده گرفته و مستقیماً به جواب میرسیدند.
ضعف در خلاقیت و نوآوری
یکی دیگر از مشکلات عمده، نبود خلاقیت در پاسخدهی مدلها بود. برخلاف انسانها که گاهی روشهای نوآورانه برای حل مسائل ارائه میدهند، مدلها عموماً از الگوهای تکراری و سطحی استفاده میکنند. این فقدان خلاقیت، یکی از مهمترین چالشهای پیشروی توسعهی هوش مصنوعی است.
مشکل آموزش؛ کادربندی پاسخها
نحوهی آموزش مدلها نیز یکی از دلایل ضعف آنهاست. آموزشهای مبتنیبر کادربندی و قالببندی پاسخها باعث شده که مدلها بیش از حد به ظاهر پاسخها توجه کنند؛ حتی اگر استدلال منطقی پشت آنها وجود نداشته باشد.
تفاوت هوش مصنوعی با انسان در تشخیص خطا
فرق دیگر بین انسان و هوش مصنوعی در تشخیص موفقیت یا شکست است. انسانها معمولاً بهخوبی میدانند که آیا مسئله را درست حل کردهاند یا خیر؛ اما مدلها اغلب با اعتماد غیرمنطقی، پاسخهای نادرست خود را صحیح تلقی میکنند.
جمعبندی؛ چالشهای پیشروی هوش مصنوعی
این پژوهش ثابت کرد که مدلهای زبانی توانایی مطلوبی در حل مسائل پیچیدهی اثباتی ندارند. اگرچه آنها در ظاهر پاسخهایی منسجم و منطقی ارائه میکنند، همچنان در حوزهی استدلال انسانی ضعفهای جدی دارند.
رسیدن به سطحی که بتوان گفت این مدلها واقعاً هوشمند هستند، نیازمند توسعههای عمیقتر در جهت تفکر خلاقانه، حل مسائل انتزاعی و درک واقعی از مفاهیم ریاضی است.
- تجمع پر تعداد کارمندان شرکت بهرهبرداری مترو مقابل شهرداری تهران
- مشاهده خبر