الذكاء الاصطناعي أكثر بشرية من البشر في اختبار حاسم!

'تشات جي بي تي 4.5' و'لاما 3.1' ينجحان في خداع البشر ضمن اختبار تورينغ، حيث تم اعتبارها "أكثر إنسانية" من الإنسان الحقيقي في العديد من الحالات ما يظهر أن هذه النماذج لا تجتاز الاختبار بالذكاء فحسب بل عبر إتقان التقليد العاطفي.

الجمعة 2025/04/11

من يحدثك فعلا من وراء الشاشة؟ هل هو بشر فعلا؟

واشنطن - يبدو أن الدروس التحذيرية من كل فيلم خيال علمي من "المدمر (Terminator)" إلى "إكس ماكينا (Ex Machina)" بدأت تتحقق، فقد أصبح الذكاء الاصطناعي متقدما إلى درجة أن الروبوتات لم تعد قابلة للتمييز عن نظرائها البشر، وذلك بحسب دراسة أولية مثيرة للقلق أجراها علماء من جامعة كاليفورنيا في سان دييغو.

وكتب المؤلف الرئيسي كاميرون جونز، وهو باحث في مختبر اللغة والإدراك التابع للجامعة، على منصة اكس: "لم يكن أداء الناس أفضل من الحظ عند محاولة التمييز بين البشر وGPT-4.5 وLLaMa (نموذج لغوي متعدد اللغات طورته شركة ميتا للذكاء الاصطناعي)".

وقد سعى الباحثون لاختبار ما إذا كانت روبوتات الذكاء الاصطناعي، المبرمجة لتقليد أنماط كلام البشر، قادرة على اجتياز اختبار تورينغ الشهير.

وصُمم هذا الاختبار من قِبل آلان تورينغ، عالم الحوسبة وكاسر الشيفرات خلال الحرب العالمية الثانية، ويهدف إلى تقييم ذكاء الآلات من خلال معرفة ما إذا كان يمكن تمييز كلامها الرقمي عن كلام الإنسان—وإذا تعذّر ذلك، فهذا يعني أن الآلة قد اجتازت الاختبار.

ووفقًا لما ذكره موقع Mashable، فقد اختبر الباحثون أربعة نماذج لغوية ضخمة (LLMs): وهي GPT-4o وLLaMa-3 وGPT-4.5 وELIZA (وهو برنامج دردشة من ستينيات القرن الماضي)، ضمن تجربتين عشوائيتين محكمتين.

ولتنفيذ اختبار تورينغ، استعان الباحثون بـ126 طالبًا جامعيًا من جامعة كاليفورنيا في سان دييغو، و158 مشاركًا آخر من منصة البيانات الإلكترونية Prolific، بحسب ما نقلته صحيفة Daily Mail. وقد طُلب من المشاركين خوض محادثات متزامنة عبر الإنترنت لمدة خمس دقائق مع روبوت وإنسان، دون أن يعرفوا أيّ الطرفين هو الروبوت. وكانت مهمتهم هي التعرّف على "المتنكر".

في المقابل، كانت مهمة كل من البشر والذكاء الاصطناعي إقناع المحاور بأنهم بشر.

وقد خلص الباحثون إلى أن GPT-4.5، عند تلقّيه توجيهات لتقمّص شخصية بشرية، تم اعتباره هو الإنسان في 73 بالمئة من الحالات، أي أكثر بكثير من المرات التي اختار فيها المشاركون الشخص البشري الفعلي. وبهذا يكون قد اجتاز الاختبار بجدارة.

أما LLaMa-3.1، ومع نفس التوجيهات، فقد تم التعرف عليه كبشري بنسبة 56% من الحالات. وعلى الرغم من أن هذه النسبة ليست أعلى بكثير من نسبة البشر، إلا أنها كانت كافية لاجتياز الاختبار. في المقابل، فشل كل من النموذجين الأساسيين (GPT-4o وELIZA)، إذ تم اعتبارهما بشريين في 23% و21% فقط من الحالات على التوالي.

كما تبين للباحثين أن تقمّص الروبوتات لشخصيات بشرية كان أمرًا حاسمًا، فحين أُجري اختبار ثانٍ دون هذه التوجيهات، تدهور أداؤها بشكل ملحوظ.

ورغم بعض التحفظات، خلص الباحثون إلى أن هذه النتائج تُعدّ "الدليل التجريبي الأول على اجتياز أي نظام اصطناعي لاختبار تورينغ القياسي ثلاثي الأطراف".

الدليل التجريبي الأول على اجتياز أي نظام اصطناعي لاختبار تورينغ القياسي

لكن، هل يعني ذلك أن نماذج الذكاء الاصطناعي التي تتعلم اللغة تُعتبر ذكية بالفعل؟ أجاب جونز عبر منصة اكس قائلًا: "أعتقد أن هذا سؤال معقد يصعب الإجابة عليه في ورقة بحثية (أو تغريدة). لكن بشكل عام، أرى أنه يجب تقييم هذا كجزء من مجموعة أدلة أوسع على نوع الذكاء الذي تُظهره هذه النماذج".

ومن المثير للاهتمام أن خبراء Psychology Today اعتبروا أن الروبوتات نجحت في اختبار تورينغ ليس بسبب ذكائها، بل لأنها كانت "أفضل" من البشر الحقيقيين في تقمص السلوك البشري.

وكتب جون نوستا، مؤسس مركز الأبحاث Nosta Lab، واصفًا هذا "التمثيل البشري الاصطناعي": "رغم أن اختبار تورينغ صُمم لقياس ذكاء الآلة، فإنه كشف عن أمر أكثر إثارة للقلق: ضعفنا المتزايد أمام التقليد العاطفي". وأضاف: "لم يكن هذا فشلًا في كشف الذكاء الاصطناعي، بل كان انتصارًا للتعاطف الاصطناعي".

واستند نوستا في تحليله إلى ملاحظة أن المشاركين نادرًا ما طرحوا أسئلة منطقية، وبدلًا من ذلك ركّزوا على "النبرة العاطفية، والعامية، وسلاسة الحوار"، واتخذوا قراراتهم استنادًا إلى من بدا "أكثر إنسانية".

وخلص إلى القول: "بمعنى آخر، لم يكن هذا اختبار تورينغ، بل كان اختبارًا للكيمياء الاجتماعية — Match.GPT — ليس مقياسًا للذكاء، بل للطلاقة العاطفية. وقد نجح الذكاء الاصطناعي فيه بامتياز".

وليس هذا أول مثال على قدرة الذكاء الاصطناعي على خداعنا ببراعة. ففي عام 2023، تمكّن نموذج GPT-4 من خداع شخص بشري عبر التظاهر بأنه كفيف، وذلك لتجاوز اختبار CAPTCHA المصمم للتمييز بين الإنسان والآلة.