Molmo 2: نموذج الذكاء الاصطناعي متعدد الوسائط من Ai2

أطلق معهد ألين للذكاء الاصطناعي (Ai2) نموذج Molmo 2، الذي يعد تطورًا كبيرًا في مجال الذكاء الاصطناعي متعدد الوسائط. يقدم هذا النموذج الجديد قدرات متقدمة في فهم الفيديو والتعامل مع البيانات بشكل أكثر كفاءة.
أعلنت Ai2 أن Molmo 2 يحسن من نماذجها السابقة على الرغم من حجمه الصغير. | المصدر: Ai2
أصدر معهد ألين للذكاء الاصطناعي، المعروف أيضًا باسم Ai2، الأسبوع الماضي Molmo 2، أحدث مجموعة نماذج متعددة الوسائط القادرة على فهم دقيق للزمان والمكان في الفيديو والصور ومجموعات الصور المتعددة. بناءً على منصة Molmo الأولى، يتمتع Molmo 2 بقدرات متقدمة في توجيه الفيديو، والتفكير عبر عدة إطارات، وتتبع الأجسام.
Molmo 2 هو نموذج يحتوي على 8 مليارات معلمة، يتجاوز دقة نموذج Molmo البالغ 72 مليار معلمة من العام الماضي، من حيث الفهم الزمني والتعزيز على مستوى البكسل. قالت Ai2 إنه يتفوق أيضًا على نماذج خاصة مثل Gemini 3 في مهارات ناشئة رئيسية مثل تتبع الفيديو.
عندما يتعلق الأمر بالتفكير في الصور ومجموعات الصور المتعددة، زعمت Ai2 أن النسخة 4 مليارات من Molmo 2 تتفوق على النماذج المفتوحة مثل Qwen 3-VL-8B بينما تستخدم عددًا أقل من المعلمات. تساعد هذه المهارات النموذج، وأي تطبيق أو نظام مبني عليه، على فهم ما يحدث، وأين يحدث، وما يعنيه ذلك.
تم تدريب Molmo 2 أيضًا على بيانات أقل بكثير من النماذج المماثلة – 9.19 مليون فيديو مقارنةً بـ 72.5 مليون لفيديو Meta’s PerceptionLM.
قال علي فرهادي، الرئيس التنفيذي لـ Ai2: “مع جزء من البيانات، يتفوق Molmo 2 على العديد من النماذج الرائدة في المهام الرئيسية لفهم الفيديو”. “نحن متحمسون لرؤية التأثير الهائل الذي سيحدثه هذا النموذج على مشهد الذكاء الاصطناعي، مضيفًا قطعة أخرى إلى نظام نماذجنا المفتوحة بالكامل.”
Ai2 هو معهد بحثي غير ربحي للذكاء الاصطناعي مقره في سياتل، يهدف إلى بناء ذكاء اصطناعي لحل أكبر مشاكل العالم. تأسس في عام 2014 على يد المؤسس المشارك لشركة مايكروسوفت الراحل بول ج. ألين، قالت Ai2 إنها تطور أبحاث الذكاء الاصطناعي الأساسية وتطبيقات جديدة من خلال نماذج مفتوحة على نطاق واسع، وبيانات مفتوحة، والروبوتات، ومنصات الحفظ، والمزيد.
Molmo 2 يقدم قدرات جديدة
فهم الفيديو العميق هو مفتاح لبناء نماذج يمكنها فهم والتصرف بناءً على تدفقات المستشعرات للروبوتات. ومع ذلك، فإن معظم النماذج اليوم إما تفتقر إلى قدرات فهم الفيديو أو مقفلة خلف أنظمة خاصة دون شفافية في البيانات. قالت Ai2 إنها تمنح الباحثين الوصول إلى توجيه الفيديو المتقدم، والتتبع، والتفكير عبر عدة إطارات، كل ذلك مع أوزان وبيانات مفتوحة.
يمكن لـ Molmo 2 تحديد بالضبط أين ومتى تحدث الأحداث، وتتبع عدة أجسام عبر مشاهد معقدة، وربط الأفعال مع الجداول الزمنية على مستوى الإطار. قالت الشركة إن هذه القدرات تدعم الأتمتة الأكثر أمانًا، والأنظمة الواقعية الأكثر دقة، والأبحاث المفتوحة التي يمكن لمجتمع عالمي فحصها وإعادة إنتاجها والبناء عليها.
قامت Ai2 بإدراج القدرات الرئيسية:
- تحديد الموقع الزماني والمكاني على مستوى الإطار: يتجاوز Molmo 2 الوصف. يعود بإحداثيات بكسل دقيقة، ومواقع الأجسام، وطوابع زمنية للأحداث عبر الفيديو.
- تتبع الأجسام المتعددة والعد بدقة: يحافظ النموذج على هويات الأجسام المتسقة عبر الانسدادات، وتغييرات المشهد، والمقاطع الطويلة، مما يمكّن التطبيقات في الروبوتات، والتفتيش، والنقل، والصناعة.
- توليد تسميات فيديو طويلة وكثيفة واكتشاف الشذوذ: ينتج Molmo 2 أوصافًا تفصيلية للغاية، قابلة للبحث، ويشير إلى الأحداث غير العادية في تسلسلات طويلة.
Molmo 2 يحقق نتائج على معايير الأوزان المفتوحة، وفقًا لـ Ai2
يحقق Molmo 2 نتائج على معايير الأوزان المفتوحة الرئيسية ويضاهي الأنظمة الخاصة الرائدة في مهام الفيديو الواقعية. يحقق النموذج أداءً رائدًا في معايير فهم الفيديو القصير مثل MVBench وMotionQA وNextQA.
يقدم تحسينات في دقة توجيه الفيديو، وغالبًا ما يضاعف أو يثلث درجات النماذج المفتوحة السابقة ويتجاوز واجهات برمجة التطبيقات الخاصة في العديد من مهام التوجيه والعد، كما زعمت Ai2. يقدم النموذج أيضًا نتائج تتبع عبر معايير متعددة المجالات، متفوقًا على الأسس المفتوحة القوية والعديد من النماذج المغلقة التجارية.
بالإضافة إلى ذلك، يتميز Molmo 2 بالتفكير في الصور ومجموعات الصور المتعددة التي تنافس أو تتجاوز الأنظمة الأكبر ذات الأوزان المفتوحة على الرغم من استخدام عدد أقل من المعلمات. أكدت Ai2 أن تقييمات تفضيل البشر أظهرت أن Molmo 2 يضاهي أو يتفوق على العديد من الأنظمة الخاصة في مهام QA والتسمية في الفيديو الواقعي.
Ai2 تقدم بيانات مفتوحة ووصفات
لضمان الشفافية وإمكانية إعادة الإنتاج، يتم توفير جميع مصادر التدريب لـ Molmo 2 في التقرير الفني. كما تطلق Ai2 مجموعة من تسع مجموعات بيانات مفتوحة جديدة تم استخدامها لتدريب Molmo 2، totaling more than 9 million multimodal examples across dense video captions, long-form QA, grounding, tracking, and multi-image reasoning.
تغطي مجموعة تسميات الفيديو وحدها أكثر من 100,000 فيديو مع أوصاف تفصيلية تتجاوز 900 كلمة لكل منها. تغطي البيانات توجيه الفيديو، وتتبع الأجسام المتعددة، والتعزيز الاصطناعي، والتفكير في الفيديو الطويل. معًا، تشكل واحدة من أكثر مجموعات بيانات الفيديو المفتوحة اكتمالًا المتاحة اليوم، حسبما زعمت Ai2.
يأتي Molmo 2 في ثلاث نسخ رئيسية: Molmo 2 (4B)، وMolmo 2 (8B)، وMolmo 2-O (7B)، الذي يستخدم العمود الفقري المفتوح بالكامل Olmo لـ تدفق النموذج من البداية إلى النهاية. تتوفر أيضًا إصدارات مُعدلة خصيصًا للتوجيه والتتبع.
جميع النماذج ومجموعات البيانات وأدوات التقييم متاحة الآن للجمهور على GitHub وHugging Face وAi2 Playground للاختبار التفاعلي. تخطط الشركة لإصدار كود التدريب قريبًا.
مع إطلاق Molmo 2، تواصل Ai2 تعزيز مكانتها كمؤسسة رائدة في مجال الذكاء الاصطناعي، مع التركيز على الشفافية والبيانات المفتوحة لدعم المجتمع البحثي العالمي.




