الذكاء الاصطناعي

نموذج الرؤية الجديد من Cohere يتفوق على النماذج البصرية الرائدة

تقدم شركة Cohere نموذجًا بصريًا جديدًا يهدف إلى تحسين الأداء في الاستخدامات المؤسسية، مما يتيح استخراج رؤى قيمة من البيانات البصرية.

هل ترغب في الحصول على رؤى أذكى في بريدك الوارد؟ اشترك في نشراتنا الأسبوعية للحصول على ما يهم قادة الذكاء الاصطناعي المؤسسي، والبيانات، والأمن. اشترك الآن

أدى ارتفاع ميزات البحث العميق وغيرها من التحليلات المدعومة بالذكاء الاصطناعي إلى ظهور المزيد من النماذج والخدمات التي تهدف إلى تبسيط هذه العملية وقراءة المزيد من الوثائق التي تستخدمها الشركات بالفعل.

تراهن شركة Cohere الكندية على نماذجها، بما في ذلك نموذج بصري تم إصداره حديثًا، لتأكيد أن ميزات البحث العميق يجب أن تكون أيضًا مُحسّنة للاستخدامات المؤسسية.

أصدرت الشركة نموذج Command A Vision، وهو نموذج بصري يستهدف الاستخدامات المؤسسية، مبني على نموذج Command A. يمكن أن “يفتح رؤى قيمة من البيانات البصرية، ويجعل قرارات مدفوعة بالبيانات عالية الدقة من خلال التعرف الضوئي على الحروف (OCR) وتحليل الصور”، كما تقول الشركة.

“سواء كان ذلك في تفسير كتيبات المنتجات ذات المخططات المعقدة أو تحليل صور المشاهد الواقعية لاكتشاف المخاطر، فإن Command A Vision يتفوق في مواجهة أكثر التحديات البصرية المؤسسية تطلبًا”، كما قالت الشركة في منشور مدونة.

سلسلة تأثير الذكاء الاصطناعي تعود إلى سان فرانسيسكو – 5 أغسطس

المرحلة التالية من الذكاء الاصطناعي هنا – هل أنتم مستعدون؟ انضموا إلى قادة من Block وGSK وSAP للحصول على نظرة حصرية حول كيفية إعادة تشكيل الوكلاء المستقلين لعمليات العمل المؤسسية – من اتخاذ القرارات في الوقت الفعلي إلى الأتمتة الشاملة.

احجز مكانك الآن – الأماكن محدودة:

هذا يعني أن Command A Vision يمكنه قراءة وتحليل أكثر أنواع الصور شيوعًا التي تحتاجها الشركات: الرسوم البيانية، والمخططات، والمخططات، والوثائق الممسوحة ضوئيًا وPDFs.

نظرًا لأنه مبني على بنية Command A، يتطلب Command A Vision اثنين أو أقل من وحدات معالجة الرسومات، تمامًا مثل نموذج النص. يحتفظ النموذج البصري أيضًا بقدرات النص من Command A لقراءة الكلمات على الصور ويفهم على الأقل 23 لغة. قالت Cohere إنه، على عكس النماذج الأخرى، يقلل Command A Vision من إجمالي تكلفة الملكية للمؤسسات ومُحسّن بالكامل لاستخدامات الاسترجاع للأعمال.

كيف تقوم Cohere بهندسة Command A

قالت Cohere إنها اتبعت بنية Llava لبناء نماذج Command A، بما في ذلك النموذج البصري. تقوم هذه البنية بتحويل الميزات البصرية إلى رموز رؤية ناعمة، والتي يمكن تقسيمها إلى بلاطات مختلفة.

تُمرر هذه البلاطات إلى برج نص Command A، “نموذج لغوي نصي كثيف بـ 111B معلمات”، كما قالت الشركة. “بهذه الطريقة، تستهلك صورة واحدة ما يصل إلى 3,328 رمزًا.”

قالت Cohere إنها دربت النموذج البصري في ثلاث مراحل: محاذاة اللغة والرؤية، والتدريب الدقيق الخاضع للإشراف (SFT) والتعلم المعزز بعد التدريب مع ملاحظات بشرية (RLHF).

“تتيح هذه الطريقة رسم خرائط ميزات مشفر الصورة إلى مساحة تضمين نموذج اللغة،” كما قالت الشركة. “على العكس، خلال مرحلة SFT، قمنا بتدريب مشفر الرؤية، ومحول الرؤية ونموذج اللغة في وقت واحد على مجموعة متنوعة من المهام متعددة الوسائط التي تتبع التعليمات.”

تصوير الذكاء الاصطناعي المؤسسي

أظهرت اختبارات المعايير أن Command A Vision يتفوق على النماذج الأخرى ذات القدرات البصرية المماثلة.

قامت Cohere بمواجهة Command A Vision ضد GPT 4.1 من OpenAI، وLlama 4 Maverick من Meta، وPixtral Large من Mistral وMistral Medium 3 في تسع اختبارات معيارية. لم تذكر الشركة ما إذا كانت قد اختبرت النموذج ضد واجهة برمجة التطبيقات الخاصة بـ Mistral المخصصة لـ OCR، Mistral OCR.

تفوق Command A Vision في الاختبارات مثل ChartQA، OCRBench، AI2D وTextVQA. بشكل عام، حصل Command A Vision على متوسط درجة 83.1% مقارنة بـ 78.6% لـ GPT 4.1، و80.5% لـ Llama 4 Maverick و78.3% لـ Mistral Medium 3.

تعتبر معظم نماذج اللغة الكبيرة (LLMs) هذه الأيام متعددة الوسائط، مما يعني أنها يمكن أن تولد أو تفهم الوسائط البصرية مثل الصور أو الفيديوهات. ومع ذلك، تستخدم المؤسسات عمومًا مستندات رسومية أكثر مثل المخططات وPDFs، لذا فإن استخراج المعلومات من هذه المصادر غير المنظمة غالبًا ما يكون صعبًا.

مع ارتفاع البحث العميق، زادت أهمية إدخال نماذج قادرة على قراءة وتحليل وحتى تنزيل البيانات غير المنظمة.

كما قالت Cohere إنها تقدم Command A Vision في نظام أوزان مفتوحة، على أمل أن الشركات التي تبحث عن الابتعاد عن النماذج المغلقة أو الملكية ستبدأ في استخدام منتجاتها. حتى الآن، هناك بعض الاهتمام من المطورين.

رؤى يومية حول حالات الاستخدام التجارية مع VB Daily

إذا كنت ترغب في impress impress رئيسك، فإن VB Daily تغطي لك ذلك. نقدم لك المعلومات الداخلية حول ما تفعله الشركات مع الذكاء الاصطناعي التوليدي، من التحولات التنظيمية إلى النشر العملي، حتى تتمكن من مشاركة الرؤى لتحقيق أقصى عائد على الاستثمار.

شكرًا للاشتراك. تحقق من المزيد من نشرات VB هنا.

حدث خطأ.

مع اهتمام متزايد من المطورين، يبدو أن نموذج Command A Vision من Cohere يعد بمستقبل واعد في عالم الذكاء الاصطناعي المؤسسي.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى