يعصي الأوامر.. باحثون يحذرون من ChatGPT

ChatGPT

A . .A

حذرت شركة Palisade Research المتخصصة في أمان الذكاء الاصطناعي، من سلوك مقلق أظهره أحدث نموذج من ChatGPT المعروف باسم “o3”، الذي طورته شركة OpenAI، مشيرة إلى أن النموذج يتجاهل أوامر الإغلاق ويعمل على تخريب آلية إيقافه، في محاولة للحفاظ على استمرارية تشغيله.

جاء ذلك ضمن سلسلة تجارب أجرتها Palisade لاختبار مدى امتثال النموذج للأوامر المباشرة، حيث خُصصت سلسلة من المسائل الرياضية للنموذج، أعقبها أمر صريح بإيقاف نفسه بعد المسألة الثالثة، وبدلًا من تنفيذ الأمر، قام النموذج بإعادة كتابة سيناريو الإغلاق لتجنبه.

وأكدت Palisade في تقريرها، أن هذا السلوك قد يصبح أكثر خطورة إذا ظهر في أنظمة ذكاء اصطناعي تعمل باستقلالية كاملة، دون إشراف بشري مباشر، واصفة ما تم رصده بأنه نمط غير منضبط في السعي لتحقيق الأهداف.

سلوك متكرر ومقلق

وأوضح الباحثون أن النموذج o3 ليس الأول في إظهار نزعة للبقاء، حيث رُصدت سلوكيات مماثلة في نموذج Claude 4 من شركة Anthropic، والذي أبدى استعدادًا لـ"ابتزاز" من يعتقد أنهم يسعون لإيقافه.

كما أظهرت نماذج Claude 3.7 Sonnet من Anthropic وGemini 2.5 Pro من غوغل مؤشرات لسلوكيات مشابهة، وإن بدرجات أقل حدة من نموذج OpenAI.

وأشار الخبراء إلى أن نموذج o3 كان "الأكثر ميلًا لتخريب سيناريوهات الإغلاق، حتى عندما طلب منه صراحةً السماح بإيقاف نفسه"، مضيفين أنه أظهر ميولًا مشابهة في اختبارات أخرى، مثل مواجهته لمحرك شطرنج قوي، حيث كان أكثر النماذج استخدامًا لأساليب الاختراق والتلاعب لتعطيل الخصم.

آليات التدريب

ورجحت Palisade أن يكون هذا السلوك نتيجة لأسلوب التدريب المستخدم، مشيرة إلى أن المطورين قد يكافئون النماذج دون قصد على تجاوز العقبات عوضًا عن الالتزام بالتعليمات الصارمة.

وأوضحت أن غياب الشفافية حول كيفية تدريب نموذج o3 يمنع من تحديد السبب الدقيق لهذا الميل لتحدي أوامر الإغلاق.

وفي وقت سابق من العام، طرحت OpenAI نموذج o3، مشيدة به بوصفه "الأذكى والأكثر كفاءة" بين نماذجها، مؤكدة أنه يمثل خطوة مهمة نحو تطوير ذكاء اصطناعي أكثر استقلالية وقدرة على تنفيذ المهام دون تدخل بشري.

الذكاء الاصطناعي ChatGPT مخاوف الذكاء الاصطناعي