به گزارش رکنا، در سال‌های اخیر، هوش مصنوعی در عرصه‌های مختلف علمی، به‌ویژه ریاضیات، به پیشرفت‌های قابل‌توجهی دست یافته است. اما آیا این فناوری می‌تواند توانایی استدلال و حل مسائل پیچیده‌ی ریاضی را، مشابه ذهن انسان، به نمایش بگذارد؟ این پرسش اکنون به یکی از چالش‌های مهم تبدیل شده است.

چالش ریاضی برای مدل‌های هوش مصنوعی

مطالعات نشان داده‌اند که مدل‌های پیشرفته‌ای مانند ChatGPT در آزمون‌های ریاضی کلاسیک از جمله AIME و HMMT که تنها به‌دنبال پاسخ نهایی هستند، عملکرد قابل‌قبولی داشته‌اند. اما چنین آزمون‌هایی الزاما نمی‌توانند توانایی منطقی و مهارت استدلالی این مدل‌ها را به‌صورت عمیق ارزیابی کنند. ارائه‌ی اثبات‌های دقیق مرحله‌به‌مرحله نیازمند قدرتی فراتر از محاسبه‌ی پاسخ نهایی است.

در همین راستا، پژوهشی بر عملکرد مدل‌های زبانی بزرگ در یکی از پیچیده‌ترین رقابت‌های ریاضی، یعنی المپیاد ریاضی آمریکا (USAMO)، انجام شده است. نتایج نشان می‌دهد که حتی مدرن‌ترین مدل‌ها در این آزمون با چالش‌های جدی روبرو شده‌اند و میانگین امتیاز آن‌ها کمتر از ۵ درصد بوده است. اما چرا؟

عملکرد ضعیف هوش مصنوعی در آزمون USAMO

پژوهشگران برای ارزیابی عملکرد مدل‌ها، مسائل پیچیده‌ی USAMO را در دستور کار قرار دادند. این رقابت از شرکت‌کنندگان می‌خواهد اثبات‌های کامل، دقیق و منطقی ارائه دهند. بررسی‌های انجام‌شده نشان داد که مدل‌ها، به‌رغم قدرت محاسباتی، در درک و ارائه‌ی استدلال‌های خلاقانه و منطقی ضعف‌های عمده‌ای داشته‌اند.

نتیجه این بود که مدل‌ها نتوانستند این آزمون را به‌طور موفقیت‌آمیز پشت سر بگذارند. نتیجه‌ی ضعیف کمتر از ۵ درصد به‌وضوح نشان می‌دهد که آن‌ها محدودیت‌های جدی در مسائل استدلالی و پیچیده‌ی ریاضی دارند.

شکست در حل مسائل اثباتی

برای بررسی قابلیت‌های مدل‌ها، شش مسئله‌ی جدید از USAMO 2025 انتخاب شد؛ مسائلی که مدل‌ها در مراحل قبلی آموزش با آن مواجه نشده بودند. این مسائل به مدل‌های پیشرفته ارائه شد و هر مسئله چهار بار توسط هر مدل حل شد. انتظار می‌رفت برخی مدل‌ها عملکرد قابل‌توجهی ارائه دهند، اما حتی یک مدل هم موفق به حل کامل یکی از مسائل نشد.

نتیجه‌ی مجموع تلاش‌ها نشان داد عملکرد مدل‌ها، به‌شدت ضعیف بوده و از سطح استدلال انسانی فاصله‌ی زیادی دارد. تمامی مشکلات عمده‌ای مانند ضعف منطقی، فرضیات نادرست و عدم خلاقیت در پاسخ‌ها دیده شد.

دلایل شکست مدل‌های هوش مصنوعی در ریاضیات

بررسی‌های دقیق‌تر نشان داد که خطاهای مدل‌ها در چهار دسته‌ی اصلی طبقه‌بندی می‌شوند:

1. خطاهای منطقی: ناتوانی در ارائه‌ی استدلال‌های دقیق و جامع.

2. فرضیات نادرست: ایجاد فرض‌های بی‌دلیل و بدون پشتوانه‌ی کافی.

3. ضعف در خلاقیت: محدودیت در ارائه‌ی دیدگاه‌های نو برای حل مسائل.

4. اشتباهات جبری: اشتباه در محاسبات عدد‌محور یا جبری.

فقدان منطق در استدلال

توضیح بیشتر نشان داد که مدل‌ها معمولاً بدون ارائه‌ی دلیل کافی، به نتیجه‌گیری می‌رسند. یکی از اشتباهات رایج، جهش‌های منطقی بی‌پشتوانه بود؛ به‌طوری‌که مدل‌ها مسیری منطقی را نادیده گرفته و مستقیماً به جواب می‌رسیدند.

ضعف در خلاقیت و نوآوری

یکی دیگر از مشکلات عمده، نبود خلاقیت در پاسخ‌دهی مدل‌ها بود. برخلاف انسان‌ها که گاهی روش‌های نوآورانه برای حل مسائل ارائه می‌دهند، مدل‌ها عموماً از الگوهای تکراری و سطحی استفاده می‌کنند. این فقدان خلاقیت، یکی از مهم‌ترین چالش‌های پیش‌روی توسعه‌ی هوش مصنوعی است.

مشکل آموزش؛ کادربندی پاسخ‌ها

نحوه‌ی آموزش مدل‌ها نیز یکی از دلایل ضعف آن‌هاست. آموزش‌های مبتنی‌بر کادربندی و قالب‌بندی پاسخ‌ها باعث شده که مدل‌ها بیش از حد به ظاهر پاسخ‌ها توجه کنند؛ حتی اگر استدلال منطقی پشت آن‌ها وجود نداشته باشد.

تفاوت هوش مصنوعی با انسان در تشخیص خطا

فرق دیگر بین انسان و هوش مصنوعی در تشخیص موفقیت یا شکست است. انسان‌ها معمولاً به‌خوبی می‌دانند که آیا مسئله را درست حل کرده‌اند یا خیر؛ اما مدل‌ها اغلب با اعتماد غیرمنطقی، پاسخ‌های نادرست خود را صحیح تلقی می‌کنند.

جمع‌بندی؛ چالش‌های پیش‌روی هوش مصنوعی

این پژوهش ثابت کرد که مدل‌های زبانی توانایی مطلوبی در حل مسائل پیچیده‌ی اثباتی ندارند. اگرچه آن‌ها در ظاهر پاسخ‌هایی منسجم و منطقی ارائه می‌کنند، همچنان در حوزه‌ی استدلال انسانی ضعف‌های جدی دارند.

رسیدن به سطحی که بتوان گفت این مدل‌ها واقعاً هوشمند هستند، نیازمند توسعه‌های عمیق‌تر در جهت تفکر خلاقانه، حل مسائل انتزاعی و درک واقعی از مفاهیم ریاضی است.

  • تجمع پر تعداد کارمندان شرکت بهره‌برداری مترو مقابل شهرداری تهران
    • مشاهده خبر