الذكاء الاصطناعي

نموذج رؤية جديد من Cohere يتفوق على أفضل النماذج البصرية

هل تريد رؤى أذكى في صندوق بريدك؟ اشترك في نشراتنا الأسبوعية للحصول على ما يهم قادة الذكاء الاصطناعي المؤسسي والبيانات والأمان. اشترك الآن

أدى ارتفاع ميزات البحث العميق وغيرها من التحليلات المدعومة بالذكاء الاصطناعي إلى ظهور المزيد من النماذج والخدمات التي تهدف إلى تبسيط هذه العملية وقراءة المزيد من الوثائق التي تستخدمها الشركات فعليًا.

تراهن شركة Cohere الكندية على نماذجها، بما في ذلك النموذج البصري الذي تم إصداره مؤخرًا، لتبرير أن ميزات البحث العميق يجب أن تكون أيضًا مُحسّنة للاستخدامات المؤسسية.

أصدرت الشركة نموذج Command A Vision، وهو نموذج بصري يستهدف بشكل خاص الاستخدامات المؤسسية، مبني على أساس نموذج Command A. يمكن للنموذج الذي يحتوي على 112 مليار معلمة “فتح رؤى قيمة من البيانات البصرية، واتخاذ قرارات دقيقة مدفوعة بالبيانات من خلال التعرف الضوئي على الأحرف (OCR) وتحليل الصور”، كما تقول الشركة.

“سواء كان ذلك في تفسير كتيبات المنتجات ذات الرسوم البيانية المعقدة أو تحليل صور المشاهد الواقعية لاكتشاف المخاطر، يتفوق Command A Vision في مواجهة التحديات البصرية الأكثر تطلبًا في المؤسسات”، كما قالت الشركة في منشور مدونة.

كيف تقوم Cohere بعمارة Command A

قالت Cohere إنها اتبعت بنية Llava لبناء نماذج Command A، بما في ذلك النموذج البصري. تقوم هذه البنية بتحويل الميزات البصرية إلى رموز رؤية ناعمة، يمكن تقسيمها إلى بلاطات مختلفة.

تُمرر هذه البلاطات إلى برج النصوص في Command A، “وهو نموذج لغوي كثيف يحتوي على 111 مليار معلمة”، كما قالت الشركة. “بهذه الطريقة، تستهلك الصورة الواحدة ما يصل إلى 3,328 رمزًا.”

قالت Cohere إنها قامت بتدريب النموذج البصري على ثلاث مراحل: محاذاة اللغة والرؤية، والتدريب الدقيق تحت إشراف (SFT)، والتعلم التعزيزي بعد التدريب مع تغذية راجعة من البشر (RLHF).

“تتيح هذه الطريقة رسم ميزات مشفر الصورة إلى فضاء تضمين النموذج اللغوي”، كما قالت الشركة. “على النقيض من ذلك، خلال مرحلة SFT، قمنا بتدريب مشفر الرؤية، ومحول الرؤية، والنموذج اللغوي في وقت واحد على مجموعة متنوعة من المهام متعددة الوسائط التي تتطلب اتباع التعليمات.”

تصور الذكاء الاصطناعي المؤسسي

أظهرت اختبارات المعايير أن Command A Vision يتفوق على النماذج الأخرى ذات القدرات البصرية المماثلة.

قامت Cohere بمقارنة Command A Vision مع GPT 4.1 من OpenAI، وLlama 4 Maverick من Meta، وMistral Pixtral Large وMistral Medium 3 في تسع اختبارات معيارية. لم تذكر الشركة ما إذا كانت قد اختبرت النموذج ضد واجهة برمجة التطبيقات الخاصة بـ Mistral OCR، التي تركز على التعرف الضوئي على الأحرف.

تفوق Command A Vision على النماذج الأخرى في اختبارات مثل ChartQA وOCRBench وAI2D وTextVQA. بشكل عام، حصل Command A Vision على متوسط درجة 83.1% مقارنة بـ 78.6% لـ GPT 4.1 و80.5% لـ Llama 4 Maverick و78.3% لـ Mistral Medium 3.

تتمتع معظم نماذج اللغة الكبيرة (LLMs) هذه الأيام بقدرات متعددة الوسائط، مما يعني أنها يمكن أن تولد أو تفهم الوسائط البصرية مثل الصور أو الفيديوهات. ومع ذلك، تستخدم المؤسسات عمومًا مستندات رسومية أكثر مثل الرسوم البيانية وPDFs، لذا فإن استخراج المعلومات من هذه المصادر غير المنظمة غالبًا ما يكون صعبًا.

مع ارتفاع البحث العميق، زادت أهمية إدخال نماذج قادرة على قراءة وتحليل وحتى تحميل البيانات غير المنظمة.

قالت Cohere أيضًا إنها تقدم Command A Vision في نظام أوزان مفتوحة، على أمل أن تبدأ المؤسسات التي تتطلع إلى الابتعاد عن النماذج المغلقة أو الملكية في استخدام منتجاتها. حتى الآن، هناك بعض الاهتمام من المطورين.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى