تقنيات المستقبل

تمييز الصوت الاصطناعي عن البشر: دراسة جديدة تكشف الحقيقة

لم يعد بإمكان الناس تمييز نسخ الصوت الاصطناعي عن البشر الحقيقيين

أصبحت قدرة الذكاء الاصطناعي على توليد الكلام الواقعي لها مجموعة من التطبيقات، سواء كانت مفيدة أو ضارة. تُظهر الأبحاث الجديدة أن أصوات الذكاء الاصطناعي اليوم لم تعد قابلة للتمييز عن أصوات البشر الحقيقيين.

تحسينات كبيرة في توليد الصوت

تحسنت قدرة الذكاء الاصطناعي على توليد الكلام بشكل كبير في السنوات الأخيرة. العديد من الخدمات قادرة الآن على إجراء محادثات مطولة. عادةً ما يمكن لهذه الأدوات استنساخ أصوات الأشخاص الحقيقيين وتوليد أصوات اصطناعية بالكامل.

فرص وتحديات جديدة

يمكن أن تجعل هذه القدرات القوية للذكاء الاصطناعي أكثر سهولة، مما يثير احتمال دخول وكلاء الذكاء الاصطناعي في مجموعة من الأدوار التي تتعامل مع العملاء في العالم الحقيقي. لكن هناك أيضًا مخاوف من أن هذه القدرات تعزز من انتشار عمليات الاحتيال باستخدام استنساخ الصوت، حيث يستخدم المهاجمون الذكاء الاصطناعي لتقليد أفراد الأسرة أو المشاهير في محاولة للتلاعب بالضحايا.

نتائج الدراسة

تاريخيًا، كانت الأصوات الاصطناعية تتمتع بجودة آلية جعلت من السهل نسبيًا التعرف عليها، حتى أن النسخ المبكرة من أصوات الذكاء الاصطناعي كانت تكشف نفسها من خلال إيقاعها المثالي جدًا أو بعض الأعطال الرقمية العرضية. لكن دراسة جديدة وجدت أن المستمع العادي لم يعد قادرًا على التمييز بين الأصوات البشرية والأصوات المستنسخة التي تم إنشاؤها باستخدام أدوات متاحة للمستهلكين.

قالت نادين لافان من جامعة كوين ماري في لندن، التي قادت البحث، في بيان صحفي: “تطلبت العملية خبرة قليلة جدًا، فقط بضع دقائق من تسجيلات الصوت، وبدون أي تكلفة تقريبًا. وهذا يظهر مدى سهولة واحترافية تكنولوجيا الصوت الاصطناعي.”

اختبار القدرة على التمييز

لاختبار قدرة الناس على تمييز الأصوات البشرية عن تلك التي تم إنشاؤها بواسطة الذكاء الاصطناعي، أنشأ الباحثون 40 صوتًا اصطناعيًا بالكامل و40 نسخة من الأصوات البشرية في مجموعة بيانات متاحة للجمهور. استخدموا أداة توليد الصوت الاصطناعي من شركة ElevenLabs الناشئة، واستغرق كل استنساخ حوالي أربع دقائق من تسجيلات الصوت لإنشائه.

ثم تحدوا 28 مشاركًا لتقييم مدى واقعية الأصوات على مقياس وإصدار حكم ثنائي حول ما إذا كانت بشرية أو تم إنشاؤها بواسطة الذكاء الاصطناعي. في النتائج المنشورة في PLOS One، وجد المؤلفون أنه على الرغم من أن الناس يمكنهم إلى حد ما تمييز الأصوات البشرية عن الأصوات الاصطناعية بالكامل، إلا أنهم لم يتمكنوا من التمييز بين النسخ الصوتية والأصوات الحقيقية.

التطبيقات الإيجابية

تسعى الدراسة أيضًا لفهم ما إذا كانت الأصوات التي تم إنشاؤها بواسطة الذكاء الاصطناعي قد أصبحت “فائقة الواقعية”. أظهرت الدراسات أن توليد الصور بواسطة الذكاء الاصطناعي قد تحسن إلى درجة أن الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي غالبًا ما تُعتبر أكثر إنسانية من الصور الفوتوغرافية للأشخاص الحقيقيين.

ومع ذلك، وجد الباحثون أن الأصوات الاصطناعية بالكامل تم الحكم عليها بأنها أقل واقعية من التسجيلات البشرية، بينما كانت النسخ تتطابق تقريبًا معها. ومع ذلك، أفاد المشاركون أن الأصوات التي تم إنشاؤها بواسطة الذكاء الاصطناعي بدت أكثر هيمنة وثقة من نظرائها البشرية.

تشير لافان إلى أن القدرة على إنشاء أصوات اصطناعية فائقة الواقعية يمكن أن تكون لها تطبيقات إيجابية. وقالت: “تفتح القدرة على توليد أصوات واقعية على نطاق واسع فرصًا مثيرة”. “قد تكون هناك تطبيقات لتحسين إمكانية الوصول، والتعليم، والتواصل، حيث يمكن أن تعزز الأصوات الاصطناعية عالية الجودة تجربة المستخدم.”

التحديات الأخلاقية

لكن النتائج تضيف إلى مجموعة متزايدة من الأبحاث التي تشير إلى أن الأصوات التي تم إنشاؤها بواسطة الذكاء الاصطناعي أصبحت بسرعة مستحيلة الكشف عنها. وتقول لافان إن هذا له العديد من الآثار الأخلاقية المقلقة في مجالات مثل انتهاك حقوق الطبع والنشر، والقدرة على نشر المعلومات المضللة، والاحتيال.

بينما حاولت العديد من الشركات وضع حدود على نماذجها المصممة لمنع سوء الاستخدام، فإن الانتشار السريع لتكنولوجيا الذكاء الاصطناعي وابتكار المهاجمين الخبيثين يشير إلى أن هذه مشكلة ستزداد سوءًا فقط.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى