'أوبن آي' تعيد هيكلة التفاعل الصوتي في 'تشات جي بي تي' جذريا
سان فرانسيسكو (رويترز) – في خطوة استراتيجية تهدف إلى تعزيز موقعها في سباق المساعدات الذكية المتطورة، أطلقت شركة "أوبن آي" (OpenAI) تحديثاً جوهرياً لواجهة التفاعل الصوتي في تطبيقها الشهير "تشات جي بي تي" (ChatGPT). وينهي هذا التحديث عهد "الواجهة الصوتية المنفصلة"، مستبدلاً إياها بنظام مدمج يوحّد النصوص، والصوت، والعناصر المرئية في شاشة واحدة، مما يعكس تحولاً كبيراً في فلسفة تصميم تجربة المستخدم لدى الشركة المدعومة من مايكروسوفت.
ويأتي هذا التغيير في وقت تتصاعد فيه المنافسة بين عمالقة التكنولوجيا مثل غوغل وآبل لتقديم مساعدات ذكية قادرة على إجراء محادثات طبيعية وسلسة، تتجاوز مجرد الأوامر الصوتية البسيطة لتصل إلى تفاعل متعدد الوسائط يحاكي التواصل البشري.
نهاية "الشاشة الزرقاء": تحول نحو الاندماج الكامل
بموجب التحديث الجديد، تخلت "أوبن آي" عن واجهة المستخدم السابقة التي كانت تخصص شاشة مستقلة تماماً للتفاعل الصوتي. في النظام القديم، كان المستخدم عند تفعيل المحادثة الصوتية ينتقل إلى شاشة سوداء تتوسطها دائرة زرقاء متحركة تمثل حالة الاستماع والمعالجة، مع وجود أزرار محدودة للتحكم.
وعلى الرغم من أن تلك الواجهة كانت توفر تركيزاً سمعياً كاملاً، إلا أنها كانت تفصل المستخدم عن سياق المحادثة النصي. لم يعد بإمكان المستخدم رؤية ما "يفكر" فيه النموذج أو قراءة الردود في الوقت الفعلي، وكان التحقق من معلومة مكتوبة يتطلب الخروج كلياً من وضع الصوت، مما كان يتسبب في انقطاع تدفق الحوار.
أما النظام الجديد، فيسمح للمستخدم بالتحدث مباشرة داخل نافذة الدردشة التقليدية. وبينما يتحدث المستخدم، يقوم النظام بكتابة الردود نصياً بالتزامن مع نطقها صوتياً. هذا التغيير التقني يعني إزالة الحواجز بين "الدردشة الكتابية" و"الدردشة الصوتية"، ليصبحا جزءاً واحداً متكاملاً من واجهة الاستخدام الرئيسية.
تجربة "متعددة الوسائط" في الوقت الفعلي
ويرى محللون تقنيون أن القيمة المضافة الحقيقية لهذا التحديث لا تكمن فقط في الشكل الجمالي، بل في الوظائف العملية التي يتيحها دمج الصوت مع الشاشة، حيث يعالج التحديث ثغرات جوهرية في قابلية الاستخدام كانت تواجه المستخدمين.
فمن خلال الواجهة المدمجة، بات بإمكان المستخدم الآن تجاوز حدود التفاعل السمعي المجرد، ليصبح الاستعراض الفوري للمرئيات جزءاً أصيلاً من التجربة؛ إذ إنه في حال قام النموذج بتوليد صورة، أو عرض خريطة، أو إنشاء رسم بياني كجزء من الإجابة، يمكن للمستخدم رؤية هذه العناصر ومناقشتها صوتياً في اللحظة ذاتها دون الحاجة لقطع الاتصال أو تبديل النوافذ. وعلاوة على ذلك، تضمن الواجهة الجديدة الحفاظ على سياق المحادثة بشكل فعال، حيث تتيح للمستخدم العودة لقراءة الرسائل السابقة ومراجعتها بينما يستمر الحوار الصوتي في الخلفية، وهي ميزة كانت مستحيلة تقنياً في وضع الشاشة الكاملة السابق.
كما يعزز هذا الدمج دقة التواصل عبر خاصية تزامن القراءة والاستماع، حيث يساعد ظهور النص بالتوازي مع الصوت المستخدمين على استيعاب المصطلحات المعقدة أو الأسماء الأجنبية التي قد يصعب التقاطها بدقة عبر السمع فقط، مما يقلل من احتمالات سوء الفهم ويرفع كفاءة تبادل المعلومات.
مرونة الانتقال بين الآليات المختلفة
ركزت "أوبن آي" في هذا التحديث على مفهوم "الانسيابية" (Fluidity). في السابق، كان الانتقال من الصوت إلى الكتابة يتطلب إجراءً يدوياً يقطع الاتصال الصوتي. الآن، تم تصميم النظام ليتسم بالمرونة العالية؛ حيث يمكن للمستخدم بدء جملة صوتياً، ثم التوقف للكتابة أو التعديل يدوياً، والعودة للصوت مجدداً دون أن يفقد النموذج سياق الحديث.
وعلى الرغم من أن إنهاء الجلسة الصوتية لا يزال يتطلب ضغطاً على زر "إنهاء" لإيقاف الميكروفون، إلا أن التجربة الكلية تبدو أقرب إلى مكالمة فيديو تفاعلية حيث يتم مشاركة المحتوى النصي والمرئي بشكل مستمر.
الوضع الافتراضي وخيارات المستخدمين
أكدت الشركة أن واجهة الصوت المدمجة (Background Mode) أصبحت الآن هي الوضع الافتراضي لجميع المستخدمين عبر تطبيقات الهواتف الذكية (iOS وAndroid). هذا القرار يشير إلى رغبة الشركة في دفع المستخدمين نحو تبني هذا النمط الجديد من التفاعل كمعيار أساسي.
ومع ذلك، واعترافاً منها بأن بعض المستخدمين قد يفضلون التجربة السمعية الخالصة التي تقلل من المشتتات البصرية، أبقت "أوبن آي" على خيار العودة إلى الواجهة القديمة. يمكن للمستخدمين تفعيل ذلك عبر إعدادات التطبيق تحت خيار "وضع الصوت" (Voice Mode) واختيار الوضع المنفصل، مما يعكس استراتيجية الشركة في الحفاظ على قاعدة مستخدميها المتنوعة بين من يفضلون الحداثة ومن يتمسكون بالواجهات الكلاسيكية.
سباق التسلح في الذكاء الاصطناعي التفاعلي
يمكن قراءة هذا التحديث في سياق أوسع يتعلق بالمنافسة المحتدمة للسيطرة على واجهة المساعد الشخصي للمستقبل. تسعى "أوبن آي" لتحويل "تشات جي بي تي" من مجرد "روبوت دردشة" نصي إلى "مساعد شامل" ينافس هيمنة "سيري" من آبل و"مساعد غوغل".
وتشير التحسينات الأخيرة، بما في ذلك القدرة على تذكر المعلومات عبر الجلسات، ودعم المحادثات الجماعية، والآن دمج الصوت في الواجهة الرئيسية، إلى أن الشركة تحاول بناء نظام بيئي متكامل للتواصل. الهدف النهائي هو الوصول إلى تجربة تشبه ما يعرف بـ "الحوسبة المحيطة" (Ambient Computing)، حيث يتفاعل المستخدم مع الذكاء الاصطناعي بشكل طبيعي عبر الصوت والصورة والنص دون الشعور بوجود حواجز تقنية.
آفاق المستقبل
يُمثل هذا الدمج خطوة تأسيسية لما هو قادم. فمع إطلاق نماذج أكثر تطوراً مثل (GPT-4o) التي تتميز بقدرات فهم صوتي وعاطفي أعلى، تصبح الحاجة إلى واجهة مرنة تعرض تعبيرات بصرية أو محتوى داعم أمراً ملحاً. إن دمج الصوت في صلب المحادثة النصية يمهد الطريق لتطبيقات تعليمية، ومهنية، وترفيهية أكثر عمقاً، حيث يمكن للمستخدم مثلاً أن يطلب من التطبيق "شرح هذه المعادلة الرياضية" بصوت مسموع بينما يشير التطبيق إلى أجزاء المعادلة على الشاشة في الوقت الفعلي.
وفي المحصلة، يعيد هذا التحديث تعريف العلاقة بين المستخدم والآلة، محولاً إياها من نظام "سؤال وجواب" جامد، إلى محادثة ديناميكية حية تندمج فيها كل وسائل التواصل البشري.