من أهم الحقائق المثيرة والمربكة في آن واحد والمتعلقة بالذكاء الاصطناعي ما يُعرف بمشكلة الصندوق الأسود؛ حيث تتلخص هذه المشكلة في عدم معرفة المستخدم أو المبرمج على حد سواء بما يقوم به النموذج في الوقت الفعلي، أي أن الخطوات ما بين المدخلات والنواتج مجهولة تمامًا للبشر.
من أين يأتي غموض الذكاء الاصطناعي؟
تكمن المشكلة الرئيسية في نماذج الذكاء الاصطناعي أنها ليست برامج اعتيادية، فالمشكلة تزداد تعقيدًا في النماذج الكبيرة المعتمد عليها برامج مثل Chat GPT وغيرها. هذه البرامج لا تكتب سطرًا يتلوه سطر كما هو الحال في غيرها. هذه البرامج تقوم بالتعلم الذاتي من خلال هضم كميات مهولة من البيانات، واكتشاف التتابعات والأنماط في اللغة، وتوقع الإجابة المثلى للسؤال المطروح من وجهة نظر البرنامج.
صعوبة التعديل على النموذج أو اكتشاف الخلل
ومن نتاج هذه الطريقة من البرمجة أن النموذج النهائي من الصعب جدًا تفكيكه أو محاولة إصلاحه أو حتى فهم الخطوات البينية، وبالتالي إصلاح العطب الذى قد يصيبه أثناء العمل، وعلى سبيل المثال لو سأل مستخدم “أي المدن في المملكة تمتلك أطيب أنواع الثمر؟”. تأتي الإجابة “القاهرة” مثلًا. هذه الإجابة لا يمكنها فهمها، ولماذا أخطأ البرنامج فيها. من جهة أخرى، هل لو سأل مستخدم آخر نفس السؤال فهل سيحصل على نفس الجواب أم لا؟.
على العكس من ذلك، إذا توقف البرنامج عن العمل أو “جن جنونه”؛ فلا يستطيع أحد المهندسين إصلاحه أو التنبؤ بتصرفاته. هذا بالأساس يعد السبب الرئيس الذى يخشي العلماء ومختصو الذكاء الاصطناعي بسببه، ويتنبؤون أنه سيصبح وبالًا على البشرية في الأيام المقبلة.
ماذا الذي يمنع البرنامج من أن يصبح متطرفًا؟
ويقول العلماء، حسب ما ذكر موقع نيويورك تايمز: “إذا كنا لا نفهم كيف يعمل أي برنامج يستخدم الذكاء الاصطناعي؟. متسائلين ما الذى يمنعه من تصميم أسلحة بيولوجية فتاكة أو نشر معلومات سياسية مضللة أو حتى كتابة برامج اختراق حاسوبية وتستخدم من قبل من يسيء استخدامها”.
ولكن من المبشر في الأمر أن فريقًا من شركة Anthropic للذكاء الاصطناعي أعلنت عن إنجاز جديد أطلقت عليه “تتبع أفكار نماذج اللغة الكبيرة”، وتأمل الشركة ان هذه الطريقة تمكنها من الحد من المشاكل سالفة الذكر.
خطوات في سبيل الحل
قامت الشركة باستخدام أحد نماذجها للذكاء الاصطناعى ويدعى Anthropic – Claude 3 Sonnet. وهو نموذج لغة يشبه Chat GPT. واستخدمت الشركة تقنية تسمى تعلم القاموس للكشف عن أنماط عمل الشبكات العصبية للنموذج، وأيهم يفعل عند إدخال مدخلات معينه عند الحديث مع النموذج.
لقد حددت الشركة 10 ملايين نمط أطلقوا عليها السمات. على سبيل المثال وجد الباحثون في الشركة أن نمطًا معينًا كان نشطًا دومًا عند الحديث عن مدينة سان فرانسسكو. بينما وجدوا أن هناك سمات أخرى مفعلة عند الحديث عن مواضيع أخري. على سبيل المثال؛ علم المناعة أو الكيمياء، وفي المقابل هناك سمات قد تم تفعليها عند الكلام عن مواضيع أكثر تجريدًا مثل الخداع والتحيز الجنسي.
من جهة أخرى، ووجد الباحثون أيضًا أن بعض السمات إذا فعلت أو تم إيقافها يدويًا فإنها تغير من عمل النموذج ككل.
على سبيل المثال، اكتشفوا أنهم إذا أجبروا سمة مرتبطة بمفهوم التملق على التنشيط بقوة أكبر، فسوف يستجيب النموذج بمدح منمق ومبالغ فيه للمستخدم، بما في ذلك في المواقف التي يكون فيها التملق غير مناسب.
نتائج مبشرة
وقال كريس أولاه، الذي قاد الفريق البحثي القائم بالدراسة: “إن هذه النتائج يمكن أن تسمح لشركات الذكاء الاصطناعي بالتحكم في نماذجها بشكل أكثر فعالية”.
وأردف: “إننا نكتشف ميزات قد تفند المخاوف بشأن التحيز ومخاطر السلامة والاستقلالية في نماذج الذكاء الاصطناعي”.
وأضاف قائلًا: “أشعر بسعادة غامرة لأننا قد نكون قادرين على تحويل هذه الأسئلة المثيرة للجدل إلى أشياء يمكننا في الواقع الحصول على خطاب بناءً أكثر بشأنها”.
ووجد باحثون آخرون ظواهر مماثلة في نماذج اللغة الأخرى؛ لكن فريق Anthropic من أوائل من طبق هذه التقنيات، ووصف جاكوب أندرياس، الأستاذ المشارك في علوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا. والذي قام بمراجعة ملخص البحث، بأنه علامة تبعث على الأمل بأن قابلية التفسير على نطاق واسع قد تكون ممكنة.
