انسَ الذكاء الاصطناعي العام - نماذج الذكاء الاصطناعي الأفضل لا تزال تكافح مع الرياضيات

Decrypt

باختصار

  • تم بناء MATHVISTA باستخدام أكثر من 6000 نقطة بيانات مشروحة من Sahara AI، ويختبر نماذج الذكاء الاصطناعي على التفكير الرياضي متعدد الوسائط.
  • حقق GPT-4V نسبة 49.9%، وهو أعلى نتيجة بين 12 نموذجًا تم اختبارها، لكنه لا يزال أدنى بمقدار 10.4 نقطة مئوية من الأداء البشري.
  • يقول الباحثون إن التقدم نحو الذكاء العام الاصطناعي قد يعتمد أقل على حجم النموذج وأكثر على تحسين بيانات التدريب والتقييم.

الذكاء الاصطناعي العام، أو AGI، يُوصف غالبًا بأنه نظام يمكنه الأداء عبر العديد من المجالات كما يفعل البشر. تظهر نتائج الاختبار المعياري MATHVISTA التي أُطلقت هذا الأسبوع أن النماذج الحالية لا تزال بعيدة عن تحقيق هذا الهدف. اختبر باحثون من Microsoft Research و Sahara AI وجامعة إيموري قدرات أساسية للذكاء العام، وهي التفكير الرياضي المستند إلى المعلومات البصرية، بما في ذلك الرسوم البيانية والمخططات والرسوم التوضيحية. من بين 12 نموذجًا أساسيًا تم اختبارها، بما في ذلك ChatGPT و Gemini و Claude، حقق GPT-4 Vision أعلى نتيجة بنسبة 49.9%. وبلغ متوسط أداء المشاركين البشريين 60.3%، مما يبرز الفجوة بين أنظمة الذكاء الاصطناعي الحالية والقدرة على التفكير الأوسع المرتبطة غالبًا بـ AGI.

 قال الباحث الرئيسي في Microsoft Research هاو تشنغ لـ Decrypt: «نريد أن تقوم الآلة بأشياء يمكن لأي شخص عادي أن يقوم بها في مهامه اليومية. هذا هو الهدف الذي يسعى الجميع لتحقيقه في سبيل AGI.» من خلال تحويل المشكلات إلى صور ومخططات ورسوم بيانية، يختبر المشروع ما إذا كانت النماذج يمكنها تفسير المعلومات البصرية بدقة وحل المشكلات الرياضية والمنطقية متعددة الخطوات — وهي مهارات تتجاوز مجرد التعرف على الأنماط في النصوص فقط. لا تزال النماذج تواجه صعوبة في تلك المهام، ويعد قياس هذا القيد أمرًا صعبًا.

عندما استعرض فريق تشنغ مجموعات البيانات التقييمية الموجودة، وجد أن العديد منها يتضمن مشكلات لا تتطلب التفكير البصري. غالبًا ما تصل النماذج إلى الإجابات الصحيحة اعتمادًا فقط على النص. قال تشنغ: «وهذا ليس مثاليًا.» تم إطلاق MathVista، المتوفر على GitHub و Hugging Face، في أكتوبر 2023. ومنذ ذلك الحين، تم تحميله أكثر من 275,000 مرة، بما في ذلك أكثر من 13,000 مرة في الشهر الماضي، وفقًا لـ Microsoft Research. لكن إنشاء مجموعة البيانات تطلب أكثر من تصنيف البيانات العادي. كانت شركة Microsoft Research بحاجة إلى مشرفين يمكنهم العمل على المشكلات في الحساب والجبر والهندسة والإحصاء، مع التمييز بين التفكير الرياضي الأعمق، مثل تفسير الرسوم البيانية أو حل المعادلات، عن المهام الأبسط مثل عد الأشياء أو قراءة الأرقام. بعد مرحلة تجريبية، اختارت Microsoft شركة Sahara AI لدعم الجهد. قدمت الشركة مشرفين مدربين، وسير عمل مخصص، وفحوصات جودة متعددة المراحل لإنتاج أكثر من 6000 مثال متعدد الوسائط تم استخدامه في الاختبار المعياري. بدون معايير موثوقة، يصبح قياس التقدم نحو الذكاء الآلي الأوسع أمرًا صعبًا، وفقًا لسيان رن، المدير التنفيذي لـ Sahara AI وأستاذ مشارك في علوم الحاسوب في USC. قال رن لـ Decrypt: «هناك تعقيد في تلوث البيانات، حيث بمجرد أن نبدأ في استخدام مجموعة البيانات هذه للاختبار، يتم امتصاص تلك النتائج في الإصدار التالي. لذلك، لا تعرف حقًا إذا كانوا يحلون مجموعة بيانات فقط، أم أن لديهم القدرة.» إذا ظهرت إجابات الاختبار المعياري في بيانات تدريب النموذج، فقد تعكس النتائج العالية الحفظ بدلاً من التفكير. مما يصعب تحديد ما إذا كانت أنظمة الذكاء الاصطناعي تتحسن فعلاً.

وأشار الباحثون أيضًا إلى حدود في بيانات التدريب. لقد تم دمج الكثير من الإنترنت المتاح علنًا بالفعل في مجموعات بيانات النماذج. قال تشنغ: «من المؤكد أنك بحاجة إلى وسيلة لإدخال بعض المعرفة الجديدة في هذه العملية. أعتقد أن هذا النوع من الأمور يجب أن يأتي من بيانات عالية الجودة حتى نتمكن من كسر حدود المعرفة هذه.» إحدى الطرق المقترحة تتضمن بيئات محاكاة حيث يمكن للنماذج التفاعل، والتعلم من التجربة، والتحسن من خلال التغذية الراجعة. قال تشنغ: «تخلق عالمًا توأمًا أو مرآة للعالم الحقيقي داخل صندوق رمل بحيث يمكن للنموذج اللعب والقيام بالكثير من الأشياء التي يفعلها البشر في الحياة الواقعية، بحيث يمكنه بشكل أساسي كسر حدود الإنترنت.» قال رن إن البشر قد لا يزالون يلعبون دورًا مهمًا في تحسين أنظمة الذكاء الاصطناعي. فبينما يمكن للنماذج توليد المحتوى بسرعة، يظل البشر أفضل في تقييمه. وأضاف: «هذه الفجوة بين الإنسان والذكاء الاصطناعي، حيث يكون الإنسان جيدًا، وأين يكون ضعيفًا، يمكن استغلالها لتحسين الذكاء الاصطناعي في المستقبل.»

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات