Voxtral: نموذج صوتي مفتوح المصدر من Mistral يتفوق على نماذج الصوت المدفوعة

أطلقت شركة Mistral نموذجًا صوتيًا مفتوح المصدر جديدًا يُدعى Voxtral، والذي يُعد منافسًا قويًا للنماذج الصوتية المدفوعة مثل تلك المقدمة من ElevenLabs وHume AI. يهدف Voxtral إلى سد الفجوة بين نماذج التعرف على الكلام الخاصة والمغلقة وبين النماذج المفتوحة الأكثر عرضة للأخطاء.
يتوفر النموذج بإصدارين: نسخة ضخمة تحتوي على 24 مليار معامل مخصصة للتطبيقات على نطاق واسع، ونسخة أصغر بحجم 3 مليارات معامل تناسب الاستخدام المحلي وعلى الأجهزة الطرفية.
تقول Mistral في منشور لها:
“كان الصوت هو أول واجهة تواصل بشري قبل الكتابة أو الطباعة، إذ مكنّا من تبادل الأفكار والتنسيق وبناء العلاقات. مع تطور الأنظمة الرقمية، يعود الصوت كأكثر أشكال التفاعل الطبيعي بين الإنسان والآلة. لكن النظم الحالية لا تزال محدودة، غير موثوقة، مغلقة، وهشة للاستخدام الواقعي. لذا، يتطلب سد هذه الفجوة أدوات تتمتع بدقة استثنائية في النسخ وفهم عميق وتعدد لغات ونشر مفتوح ومرن.”
الميزات التقنية لنموذج Voxtral
يتوفر Voxtral من خلال واجهة برمجة التطبيقات (API) الخاصة بـMistral ونقطة نهاية مخصصة للنسخ فقط على موقع الشركة. كما يمكن الوصول إلى النموذج عبر منصة الدردشة الخاصة بـMistral المسماة “Le Chat”.
يتميز Voxtral بسياق معالجة يصل إلى 32 ألف رمز (token)، ما يمكنه من الاستماع ونسخ ما يصل إلى 30 دقيقة من الصوت أو 40 دقيقة من فهم المحتوى الصوتي. كما يوفر ميزات التلخيص، مما يعني أن النموذج قادر على الإجابة على الأسئلة بناءً على محتوى الصوت وتوليد ملخصات دون الحاجة للتبديل إلى وضع منفصل. يمكن للمستخدمين أيضًا تشغيل وظائف واستدعاء واجهات برمجة التطبيقات (API) استنادًا إلى التعليمات الصوتية.
النموذج مبني على نسخة Mistral Small 3.1، ويدعم عدة لغات مع اكتشاف تلقائي للغة منها: الإنجليزية، الإسبانية، الفرنسية، البرتغالية، الهندية، الألمانية، الإيطالية، والهولندية.
المزايا الخاصة بالمؤسسات
قدمت Mistral ميزات إضافية للمؤسسات مثل:
-
النشر الخاص لتكامل النموذج ضمن بيئاتهم.
-
التخصيص الدقيق لمجالات محددة.
-
وصول أولوية لدعم الهندسة لمساعدة العملاء على دمج Voxtral في سير العمل الخاص بهم.
الأداء والمقارنة
الذكاء الاصطناعي للتعرف على الكلام متوفر في العديد من المنصات حاليًا. يمكن للمستخدمين التحدث إلى ChatGPT الذي يعالج التعليمات الصوتية بنفس الطريقة التي يعالج بها التعليمات النصية. استخدمت سلاسل الوجبات السريعة مثل White Castle خدمة SoundHound في خدمات الطلب عبر السيارات، وElevenLabs تطور منصتها متعددة الوسائط باستمرار. كما أطلقت شركات ناشئة مثل Nari Labs نموذجًا مفتوح المصدر للصوت اسمه Dia.
تقدم خدمات النسخ مثل Otter وRead.ai خدمات مدمجة مع Zoom للاجتماعات، توفر تسجيلًا، وتلخيصًا، وتنبيهات بالعناصر القابلة للتنفيذ. توفر بعض منصات الاجتماعات مثل Google Meetings ملاحظات تلقائية باستخدام Gemini.
صرحت Mistral بأن Voxtral تفوق على نماذج صوتية حالية مثل OpenAI Whisper، Gemini 2.5 Flash، وScribe من ElevenLabs، حيث سجل أخطاء كلمات أقل من Whisper الذي يعتبر حتى الآن أفضل نموذج للتعرف التلقائي على الكلام.
في مجال فهم الصوت، يحقق Voxtral Small أداءً منافسًا مع نماذج مثل GPT-4o-mini وGemini 2.5 Flash، محققًا أداءً متقدمًا في الترجمة الصوتية.
ردود فعل المجتمع
أشار مستخدمون عبر وسائل التواصل الاجتماعي إلى انتظارهم لنموذج صوتي مفتوح المصدر يضاهي أداء Whisper، معربين عن سعادتهم بهذا الإصدار الجديد.
التسعير
تتوفر خدمة Voxtral عبر واجهة برمجة التطبيقات بسعر 0.001 دولار أمريكي لكل دقيقة من الاستخدام.
مع إطلاق Voxtral، تقدم Mistral نموذجًا صوتيًا مفتوح المصدر متقدمًا يجمع بين الدقة، الفهم العميق، وتعدد اللغات، مع إمكانية النشر المرن. هذا يمثل خطوة مهمة في مجال الذكاء الاصطناعي للصوت، خصوصًا للشركات والمؤسسات التي تبحث عن حلول فعالة ومفتوحة المصدر بأسعار مناسبة.