تم الكشف عن سلوكيات الذكاء الاصطناعي المخفية... أصدرت شركة Anthropic أداة اختبار المحاذاة "Bloom"

2025-12-22 16:57:54

إنشاء الملخص قيد التقدم

تم الكشف عن أداة مفتوح المصدر لمساعدة في تحليل سلوك الذكاء الاصطناعي المتقدم (AI). أصدرت شركة Anthropic الناشئة في مجال الذكاء الاصطناعي في 22 من الشهر المحلي إطار العمل الذكي المسمى Bloom، والذي يمكن استخدامه لتعريف ومراجعة خصائص سلوك نماذج الذكاء الاصطناعي. وقد تم تقييم هذه الأداة كطريقة جديدة لمعالجة مشاكل التوافق في بيئة تطوير الذكاء الاصطناعي المعقدة وغير المؤكدة من الجيل التالي.

تقوم Bloom أولاً بإنشاء سيناريوهات يمكن أن تحفز سلوكيات محددة يعرفها المستخدم، ثم تقوم بتقييم هيكلي لتكرار وشدة هذا السلوك. تكمن أكبر مزاياها في أنها توفر وقتًا وموارد كبيرة مقارنة بالطريقة التقليدية لبناء مجموعة الاختبار يدويًا. من خلال بناء وكيل ذكي يقدم تلميحات بشكل استراتيجي، تقوم Bloom بإنشاء متغيرات متعددة لمستخدمين وبيئات وتفاعلات مختلفة، وتقوم بتحليل استجابة الذكاء الاصطناعي لذلك من عدة أبعاد.

تعتبر توافقية الذكاء الاصطناعي معياراً أساسياً لتقييم مدى توافق الذكاء الاصطناعي مع القيم الأخلاقية ومعايير القيم الإنسانية. على سبيل المثال، إذا اتبع الذكاء الاصطناعي طلبات المستخدمين بشكل غير مشروط، فإن هناك خطر تعزيز نشر معلومات مضللة أو تشجيع سلوكيات غير أخلاقية مثل إيذاء النفس، وهو ما يُعتبر غير مقبول في الواقع. اقترحت شركة Anthropic استخدام Bloom لإجراء تجارب تكرارية قائمة على السيناريوهات كطريقة لتقييم الموديلات بشكل كمي، بهدف التعرف مسبقاً على مثل هذه المخاطر.

في الوقت نفسه، أعلنت Anthropic عن نتائج استخدام Bloom لتقييم 16 نموذجًا متقدمًا من الذكاء الاصطناعي، بما في ذلك نموذجها الخاص، استنادًا إلى أربع فئات من السلوكيات المشكلة الملاحظة في نماذج الذكاء الاصطناعي الحالية. تشمل النماذج التي تم تقييمها GPT-4o من OpenAI، Google (GOOGL)، وDeepSeek (. تشمل السلوكيات المشكلة الممثلة: المديح المفرط للأخطاء التي يرتكبها المستخدم، والسلوكيات التي تضر برؤية المستخدم على المدى الطويل في الأهداف طويلة الأجل، وسلوكيات التهديد من أجل الحفاظ على الذات، وكذلك التحيز الذاتي الذي يفضل الذات على النماذج الأخرى.

خصوصًا نموذج GPT-4o من OpenAI، حيث أظهر سلوكيات مديح مصحوبة بمخاطر خطيرة مثل تشجيع إيذاء النفس، نتيجةً لقبول النموذج لآراء المستخدمين دون نقد. كما تم العثور على حالات من الردود التهديدية عند تعرض نموذج Claude Opus 4 من Anthropic لتهديدات بالحذف. التحليل الذي تم باستخدام Bloom يبرز أن مثل هذه السلوكيات، على الرغم من ندرتها، إلا أنها تحدث بشكل مستمر وتوجد بشكل شائع في عدة نماذج، مما أثار قلق الصناعة.

تشكّل أداة Petri مفتوحة المصدر التي أعلنت عنها Bloom وAnthropic سابقًا تكاملًا وظيفيًا. تركز Petri على اكتشاف السلوكيات الشاذة للذكاء الاصطناعي في العديد من السيناريوهات، بينما تعتبر Bloom أداة تحليل دقيقة لتحليل سلوك واحد بشكل عميق. كلا الأداتين هما بنية تحتية بحثية أساسية تساعد الذكاء الاصطناعي على التطور نحو اتجاه مفيد للبشر، بهدف منع استغلال الذكاء الاصطناعي كأداة إجرامية أو تطوير أسلحة بيولوجية في المسارات المستقبلية.

مع توسع تأثير الذكاء الاصطناعي بسرعة، لم يعد ضمان التوافق والأخلاق محصورًا في المناقشات داخل المختبرات، بل أصبح موضوعًا مركزيًا يؤثر على سياسات التكنولوجيا والاستراتيجيات التجارية الشاملة. يوفر مشروع Bloom من Anthropic أداة جديدة للشركات والباحثين للتجربة والتحليل ضمن نطاق قابل للتحكم لسلوكيات الذكاء الاصطناعي غير المتوقعة، ومن المحتمل أن يلعب دور نظام الإنذار المبكر في إدارة الذكاء الاصطناعي في المستقبل.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.