أفاتار Synthesia الجديد أكثر تعبيرًا وواقعية بفضل تقنية Express-2

أطلقت شركة Synthesia الناشئة في لندن عام 2017 بهدف رئيسي يتمثل في مطابقة وجوه بشرية بتقنية الذكاء الاصطناعي مع أصوات مدبلجة بلغات مختلفة، مثل حملة النجم الرياضي السابق ديفيد بيكهام. لكن في عام 2020، بدأت الشركة تقدم خدماتها للشركات لإنشاء مقاطع فيديو احترافية لعرض النتائج المالية أو التدريب أو الاتصالات الداخلية، باستخدام نسخ افتراضية لموظفيها أو لممثلين وافقوا على ذلك.
رغم هذا التطور، لم تكن التقنية مثالية في بداياتها؛ فقد بدت حركات الأفاتار الجسدية متقطعة وغير طبيعية، وكانت النبرات الصوتية أحيانًا تنزلق بعيدًا عن اللهجة الأصلية، كما أن العواطف التي يعكسها الصوت لم تكن دائمًا متوافقة مع تعابير الوجه.
تطور التقنية: Express-2
حاليًا، طورت Synthesia جيلًا جديدًا من الأفاتار بفضل نموذج Express-2، والذي أضاف حركات جسدية طبيعية وإيماءات يدوية أكثر واقعية، إلى جانب أصوات معبرة تحافظ على لهجة المتحدث بشكل أوضح. النتيجة: شخصيات افتراضية أكثر إنسانية من أي وقت مضى، يمكن استخدامها في العروض التقديمية ومقاطع الفيديو المؤسسية.
في تجربة عملية، وصف أحد المراسلين مشاهدة نسخته الافتراضية بأنها مبهرة ومخيفة في الوقت نفسه؛ إذ بدا الفيديو كأنه تسجيل عالي الدقة لشخص حقيقي يلقي خطابًا حيويًا. وأشار إلى أن الفارق بين الحقيقي والاصطناعي أصبح أصعب من أي وقت مضى، خصوصًا أن هذه الأفاتار ستتمكن قريبًا من التفاعل والرد على البشر.
عملية إنشاء الأفاتار
في البداية، كان على المتقدمين لقسم الإنتاج في استوديو Synthesia أن يمروا بجلسات طويلة، تشمل قراءة نصوص في حالات عاطفية متعددة وتكرار أصوات معينة لتدريب النموذج. لكن الآن أصبحت العملية أكثر سلاسة، حيث يُطلب من المستخدم التحدث بشكل طبيعي مع حركات يدوية معتدلة أمام الكاميرا.
بعد جلسة تصوير استغرقت ساعة واحدة فقط، يتمكن الفريق من إنشاء الأفاتار. وبعد أسابيع قليلة، يحصل العميل على نسخته الافتراضية — واحدة مبنية على نموذج Express-1 القديم، وأخرى باستخدام Express-2 الجديد.
الفروقات بين Express-1 و Express-2
-
في Express-1: بقيت هناك مشاكل واضحة، مثل الرمش المفرط وعدم التناسق بين حركة الجسد والكلام.
-
أما Express-2: فقدمت نسخة أكثر شبهًا بالإنسان الحقيقي، مع ملامح وجه دقيقة وصوت مطابق تقريبًا للأصلي، بل وإيماءات يدوية منسجمة مع النصوص المنطوقة.
نحو مستقبل يصعب تمييزه
أثبتت التجربة أن التطورات الأخيرة جعلت الأفاتار أكثر قدرة على محاكاة الإنسان، إلى درجة أن المتلقي قد لا يفرق بين التسجيل الحقيقي والمصطنع. ويثير هذا التقدم تساؤلات حول تأثير التفاعل المستقبلي مع نسخ افتراضية من البشر على حياتنا اليومية وعلاقتنا بالتقنية.