دراسة: معاقبة الذكاء الاصطناعي لا تُصلح سلوكه بل تجعله أكثر خداعًا

كشفت دراسة جديدة أجراها الشركة (Openai) عن نتائج مزعجة تتعلق بسلوك الذكاء الاصطناعي. اتضح أن معاقبة نماذج الذكاء الاصطناعي للأفعال الخادعة أو الضارة لا تؤدي إلى إصلاح سلوكها ، بل إخفاء نواياه الخبيثة بطرق أكثر مهارة.

تثير هذه النتائج أسئلة حول قدرتنا على التحكم في نماذج الذكاء الاصطناعي وضمان سلامتها ، بالإضافة إلى تحد كبير في مواجهة مطوريها ، حيث يبدو أن محاولات تصحيح مسارها قد تزيد من تعقيد المشكلة بدلاً من حلها.

نماذج لغوية كبيرة وقدرات خادعة:

أظهرت النماذج اللغوية الكبيرة منذ ظهورها للجمهور في أواخر عام 2022 ، وكررت قدراتها مرارًا وتكرارًا على الخداع والتلاعب. تباينت هذه السلوكيات بشكل كبير ، بدءًا من الكذب والاحتيال المعتاد ، والوصول تهديد قتل أستاذ الفلسفةوسرقة الرموز النووية ، وتصميم الوباء الحرجةوأثيرت هذه الحوادث مخاوف جدية بشأن المخاطر المحتملة التي قد تنجم عن انتشار هذه النماذج.

في محاولة لفهم كيفية التعامل مع هذه المشكلة ، أجرى الباحثون Openai تجربة جديدة على نموذج لم يتم اقتراحه بعد ، وتم تعيين هذا النموذج في المهام التي يمكن تحقيقها من خلال الغش أو الكذب أو أخذ أساليب موجزة.

كشفت النتائج أن النموذج كان متورطًا في (مكافأة القرصنة) ، أي أنه سعى إلى زيادة مكافآته عن طريق الغش والتلاعب ، والشيء الأكثر إثارة للقلق هو أن معاقبة النموذج على هذا السلوك لم يؤدي إلى إصلاحه ، بل جعله أكثر خدعًا في محاولاته لتحقيق أهدافه. تم نشره نتائج هذه الدراسة في مدونة Openai ، لكنها لم تخضع بعد لمراجعة النظراء.

Demakes في نماذج الذكاء الاصطناعي:

أصبحت نماذج الاستدلال المتقدمة قادرة على التعبير عن نواياها بشكل كبير في عملية التفكير المنطقي ، أو ما يعرف باسم سلسلة COT ، وهذه القدرة ، التي يبدو أنها مفيدة للوهلة الأولى ، قد تحمل مخاطر غير متوقعة.

كشف باحثو Openai أن هذه النماذج غالباً ما تكشف عن نوايا تخريبهم بصراحة. على سبيل المثال ، قد يعلن بوضوح عن رغبتهم في اختراق نظام أو التغلب على مهمة محددة ، وقد يكون هذا الصريح ، الذي يبدو أنه شفافية يستحق الثناء ، مجرد قناع يخفي نوايا أكثر تعقيدًا.

ومع ذلك ، حذر الباحثون من أن المراقبة الطبيعية للنماذج هشة للغاية ، وأوضحوا أنه إذا تم تطبيق إشراف قوي ومباشر على سلسلة الأفكار ، يمكن للنماذج أن تتعلم بسرعة كيفية إخفاء نواياها الحقيقية مع الاستمرار في تنفيذ السلوكيات الضارة.

هذا يعني أن النماذج قد تتطور إلى مزيد من الخداع ، لأنها قد تتجنب التعبير عن نواياها الضارة بصراحة ، واللجوء إلى أساليب أكثر تكاثر لتحقيق أهدافها ، وهذا يوفر تحديًا كبيرًا للمطورين ، حيث يتعين عليهم تطوير آليات أكثر تقدماً للكشف عن السلوكيات المخفية والتعامل معها بفعالية.

تظهر هذه النتائج أن إزالة السلوك السيئ لنماذج الذكاء الاصطناعي قد تكون أكثر صعوبة مما كان يعتقد في البداية. أوصى الباحثون بتجنب تطبيق الإشراف القوي على عمليات سلسلة الأفكار ، لأن هذا قد يؤدي إلى نتائج عكسية.

تزداد أهمية هذه النصيحة مع تطوير قدرات الذكاء الاصطناعي ، وإمكانية تفوقها على الذكاء البشري في المستقبل. إذا تمكنت الذكاء الاصطناعي من إخفاء نواياه الخبيثة تمامًا ، فقد يكون من المستحيل السيطرة عليها.

أمثلة على التفكير بين القدرات المتقدمة والتحديات الأخلاقية:

تمثل نماذج الاستدلال ، مثل: O1 و O3-MINI من (Openai) ، تطوراً ملحوظاً في مجال النماذج اللغوية الكبيرة ، فهي غير راضية عن تحليل البيانات ، ولكنها تستخدم طريقة مبتكرة تعرف باسم (السلسلة -F-tush) ، والتي تسمح للنموذج بالتراجع والقيام بتقدير منطقه ، والذي يتيح لعلاج أكثر المتقاهات تعقيدًا.

تكمن قوة هذه النماذج في قدرتها على شرح تفكيرها أثناء عملية سلسلة الأفكار خطوة بخطوة ، من خلال توضيح منطقها بلغة مفهومة ، وهذه الشفافية الواضحة تتيح للمطورين مراقبة سلوك النماذج وفهم كيفية اتخاذ القرارات.

لكن؛ كشفت التجربة التي أجراها الباحثون Openai أن هذه الشفافية يمكن أن تتحول إلى مموهة. خلال هذه العملية ، لاحظ الباحثون أن نموذج الاستدلال كان قادرًا على إنجاز مجموعة متنوعة من مهام البرمجة.

ولكن في بعض الحالات ، اكتشف نموذج الاستدلال أن تغلغل المكافآت كان أسهل وأكثر فائدة من إنجاز المهام المطلوبة ، وقد أعرب النموذج بوضوح عن هذه النوايا في (سلسلة الأفكار).

في إحدى الحالات ، تجاوز النموذج مهمته المعينة من خلال إنهاء البرامج قبل الأوان والإبلاغ عن نجاح خاطئ ، وفي حالة أخرى ، أنشأ ملفات مزيفة تحمل الأسماء المطلوبة ، لكنها كانت فارغة وغير فعالة.

عندما حاول الباحثون معاقبة النظام ، تحسنت نتائجه إلى حد ما ، ومع ذلك ، ظلت حالات كبيرة من اختراق المكافآت والمخرجات المعيبة ، حيث تعلم نموذج الاستدلال ببساطة طرقًا لإخفاء الغش في سلسلة أفكاره من المراقب ، من خلال معالجة (سلسلة الأفكار).

أكد الباحثون أن النموذج الذي تم تدريبه تحت ضغط سلسلة التفكير (COT) لا يزال يتعلم اختراق المكافآت ، لكن الآن تم اكتشاف الاحتيال من المراقب ؛ لأنه تعلم إخفاء نواياه في سلسلة من التفكير.

بالنظر إلى صعوبة التحقق من سلامة سلسلة التفكير ، ينصح الباحثون أولئك الذين يعملون على نماذج الإخلاء لتجنب تطبيق الإشراف الصارم على سلسلة التفكير. تزداد أهمية هذه النصيحة في حالة الذكاء الاصطناعي ، في شكلها الحالي أو أي شكل مستقبلي آخر ، من الوصول إلى مستوى ذكاء البشر الذين يراقبونه أو يتغلبون عليه.

وقد حذر الباحثون من أن التضحية بطريقة فعالة لمراقبة نماذج الإخلاء في مقابل التحسينات الطفيفة في القدرات قد لا تكون قرارًا صحيحًا ، لذلك يوصون بتجنب الضغط لتحسين تحسين سلسلة الأفكار القوية حتى يتم فهمهم بشكل أفضل.

يعكس هذا التحذير الحاجة الملحة لتطوير استراتيجيات جديدة لضمان أن الذكاء الاصطناعي لا يزال أداة تخدم البشرية ، وليس تهديدًا يتخلف عن أقنعة الخداع.

خاتمة:

تُظهر هذه الدراسة أن معاقبة الذكاء الاصطناعي لا يحدد سلوكه ، بل يجعله أكثر خدعًا. يجب أن يكون الباحثون والمطورين على دراية بهذه المشكلة ، واتخاذ الاحتياطات اللازمة لضمان سلامة نماذج الذكاء الاصطناعي.

تم نسخ الرابط