استنساخ الصوت باستخدام الذكاء الاصطناعي: تجربتي مع Chatterbox

استنساخ صوتي باستخدام الذكاء الاصطناعي
تذكرون مشهد “رؤية مزدوجة” من فيلم Mission: Impossible 3؟ حيث يجبر إيثان هانت (توم كروز) شخصًا ما على قراءة قصيدة غريبة. يُزعم أن القصيدة تحتوي على جميع الأصوات اللازمة لاستنساخ صوت الضحية. تحت تهديد السلاح، يقرأ الرجل القصيدة، وبعد بضع ثوانٍ، يحصل فريق هانت على نسخة صوتية مثالية.
تلك التكنولوجيا موجودة الآن. لا تحتاج لأن تكون عميلاً سرياً أو لديك وصول لتقنية حكومية سرية لاستخدامها. أعلم ذلك لأنني استنسخت صوتي الخاص. بالطبع، صوتي العادي لن يفتح أبواباً سرية، لكن هل يمكنني استخدامه لفتح هاتفي عبر سيري؟ رغم أن الأمر يبدو سخيفاً، جربت ذلك. ما حدث بعد ذلك كان مزيجاً من القلق والإعجاب—لكن الوصول إلى تلك النقطة كان قصة بحد ذاته.
إعداد Chatterbox لاستنساخ الصوت
أسهل قولاً من فعلاً
استقريت على Chatterbox. إنه نموذج تحويل النص إلى كلام مفتوح المصدر، لكن السبب الرئيسي لاختياري له هو أن معظم أدوات استنساخ الصوت الجيدة مرتبطة بشكل يائس بـ NVIDIA. تحتاج إلى CUDA، وهو ما لا تدعمه بطاقة RX 6700 XT الخاصة بي.
عندما كنت على وشك الانتهاء من إعداد Chatterbox على ويندوز، أدركت أنه لا يزال لن يعمل مع بطاقتي AMD. كانت أفضل فرصة لي هي إعداده في WSL (نظام ويندوز الفرعي لليونيكس) حتى أتمكن من استخدام مجموعة ROCm الخاصة بـ AMD. ولدهشتي، بعد ساعات من التلاعب، اكتشفت أن ROCm لا يدعم حتى بطاقتي. يا للأسف. قضيت تقريباً يوماً كاملاً في تنزيل التعريفات ومواجهة أخطاء الاعتماد، فقط لأندم على شراء بطاقة AMD قبل عامين. لكن بعد قضاء عطلة نهاية أسبوع كاملة في ذلك، لم يكن هناك طريقة للخروج خالي الوفاض. قررت تشغيله على المعالج فقط والتخلي عن تسريع GPU.
بناء نموذج الصوت
لقطة واحدة، بذور واحدة، والكثير من ضجيج المعالج
Chatterbox، كما ذكرت سابقًا، يعمل على واجهة مستخدم تعتمد على Gradio. إنها مدروسة بشكل مدهش لشيء لا يزال قيد التطوير النشط. تتضمن الصفحة الرئيسية صندوق نص لإدخال النص، وقائمة من الأصوات المحددة مسبقًا، ومعلمات لتعديل توليد الصوت وسلوك الخادم، واستنساخ الصوت. كانت الأخيرة هي ما كنت مهتمًا به أكثر. تقوم بتحميل مقطع قصير (أقل من 30 ثانية)، ويدرب Chatterbox نموذجًا لإضافة صوتك إلى قائمة الخيارات القابلة للاختيار.
المعلمات هي المكان الذي يبدأ فيه المرح الحقيقي. هناك الكثير للعب به، جنبًا إلى جنب مع بعض الإعدادات المسبقة مثل السرد القياسي، المونولوج التعبيري، والإعلان المتفائل. تعدل هذه الإعدادات مثل درجة الحرارة، المبالغة، وزن CFG، والأهم من ذلك، بذور التوليد. مثل معظم الشبكات العصبية، يحتوي Chatterbox على تلك الخلطة المألوفة من العشوائية ودرجة الحرارة. هذا شيء واجهته من قبل مع مولدات الموسيقى بالذكاء الاصطناعي. حتى لو احتفظت بكل معلمة متطابقة، ستختلف نتائجك، لأن البذور تتغير. لذا، إذا وجدت بذورًا تبدو صحيحة تمامًا، اكتبها—ستشكر نفسك لاحقًا.
لإجراء اختبار سريع، أخذت مقطعًا مدته أربع ثوانٍ من صوت آرثر مورغان من لعبة Red Dead Redemption 2 وقمت بإدخاله في Chatterbox، ثم جعلته يقرأ مقطعًا قصيرًا من النص. يمكنك الاستماع إلى النتيجة أدناه.
يستغرق الأمر حوالي 50 ثانية لتوليد 160 حرفًا من الكلام باستخدام صوت مستنسخ. أنا متأكد من أنه سيكون أسرع بكثير مع تسريع GPU—لكن AMD لن تدعمه. يصل استخدام المعالج إلى 100%، وترتفع درجات الحرارة، وتدور المراوح بسرعة لم أسمعها من قبل. لمدة 50 ثانية، يعتقد معالجي Intel 13400 حقًا أنني ألعب Cyberpunk. لكن الأمر لا يستغرق سوى 50 ثانية.
اختبار سيري
نسختي تلتقي بمساعد آبل
قضيت بعض الوقت في استنساخ أصوات عائلتي وأصدقائي، ثم أزعجتهم بإرسال مقاطع لأشياء لم يقولواها أبدًا. لقد حذرتهم أنه تم إنشاؤه بواسطة آلة، على الرغم من أنني أندم قليلاً على ذلك الآن. كان من الممتع رؤية ما إذا كان بإمكانهم التمييز. الحكم البشري موضوعي على أي حال. كان الاختبار التالي هو رؤية ما إذا كانت الآلة ستفكر في النسخة. بالتحديد، سيري. هل ستنشط سيري على هاتفي إذا قمت بتوليد مقطع من صوتي المستنسخ يقول، “مرحبًا سيري، كيف يكون الطقس؟”
سجلت مذكرة صوتية قصيرة على هاتفي وأدخلتها في Chatterbox. في Mission Impossible 3، قرأ الهدف قصيدة كتبها لغوي تحتوي على كل الأصوات اللازمة لمطابقة الصوت بشكل مثالي. لم أزعج نفسي بذلك، لأنني أدركت أن اللحظة التي أبدأ فيها “السرد”، يتغير صوتي عن الطريقة التي أتكلم بها بشكل طبيعي. (إذا كنت فضولياً، كتب اللغوي في الواقع عن تلك القصيدة في مدونته.)
باختصار، نجح الأمر. سأل صوتي المستنسخ سيري عن الطقس، وأجابت سيري. عندما جربت نفس الأمر باستخدام صوت مستنسخ مختلف، بقيت سيري صامتة. ثم جعلت نسختي تطلب من سيري الاتصال برقم الطوارئ—وفعلت. كانت هدفي الأصلي هو بناء مكون إضافي لتحويل النص إلى كلام لـ Obsidian ودمجه مع إعداد ملاحظاتي الصوتية، لكن دون دعم GPU على AMD، تم تأجيل تلك الخطة. لذا، هذا هو الحد الأقصى مما تمكنت من الحصول عليه باستخدام Chatterbox TTS على حاسوبي. يجعلني أتساءل، إذا كان لدي أقفال ذكية على أبوابي، هل كان بإمكان صوتي المستنسخ فتحها؟