الذكاء الاصطناعي

بولمو: نماذج لغة على مستوى البايت بكفاءة عالية

تتجه الشركات التي ترغب في نماذج متعددة اللغات خالية من المحلل اللغوي بشكل متزايد إلى نماذج اللغة على مستوى البايت لتقليل الهشاشة في النصوص الضوضائية أو ذات الموارد المحدودة.

معمارية بولمو تفتح آفاق تدريب نماذج اللغة على مستوى البايت بكفاءة دون التضحية بالجودة

تتجه الشركات التي ترغب في نماذج متعددة اللغات خالية من المحلل اللغوي بشكل متزايد إلى نماذج اللغة على مستوى البايت لتقليل الهشاشة في النصوص الضوضائية أو ذات الموارد المحدودة. ولتلبية هذه الحاجة – وجعلها عملية على نطاق واسع – قدم معهد ألين للذكاء الاصطناعي (Ai2) بولمو، عائلة جديدة من النماذج التي تستفيد من نماذج أولمو 3 من خلال “تحويلها إلى بايت” وإعادة استخدام هيكلها وقدراتها.

أطلقت الشركة نسختين، بولمو 7B وبولمو 1B، واللتين تعتبران “أول نموذج لغة مفتوح بالكامل على مستوى البايت”، وفقًا لـ Ai2. وقالت الشركة إن النموذجين أديا أداءً تنافسياً مع – وفي بعض الحالات تجاوزا – نماذج أخرى على مستوى البايت والنماذج القائمة على الأحرف.

تعمل نماذج اللغة على مستوى البايت مباشرة على بايتات UTF-8 الخام، مما يلغي الحاجة إلى مفردات محددة مسبقًا أو محلل لغوي. وهذا يسمح لها بالتعامل مع الأخطاء الإملائية، واللغات النادرة، والنصوص غير التقليدية بشكل أكثر موثوقية – وهي متطلبات رئيسية للاعتدال، والتطبيقات في الأطراف، والتطبيقات متعددة اللغات.

بالنسبة للشركات التي تنشر الذكاء الاصطناعي عبر لغات متعددة، توفر النماذج الخالية من المحلل اللغوي وسيلة لتقليل التعقيد التشغيلي. تعتبر بولمو من Ai2 محاولة لجعل هذا النهج عمليًا على نطاق واسع – دون إعادة التدريب من الصفر.

كيف يعمل بولمو وكيف تم بناؤه

قالت Ai2 إنها قامت بتدريب نماذج بولمو باستخدام مجموعة بيانات دولما 3، التي ساعدت في تدريب نماذج أولمو الرائدة، وبعض مجموعات البيانات المفتوحة والبيانات القائمة على الأحرف.

وقالت الشركة إن هدفها “هو توفير خطة قابلة للتكرار والتفتيش لتحويل نماذج اللغة الفرعية القوية إلى بايت بطريقة يمكن للمجتمع اعتمادها وتوسيعها.” لتحقيق هذا الهدف، ستقوم Ai2 بإصدار نقاط التحقق الخاصة بها، والكود، وورقة كاملة لمساعدة المنظمات الأخرى في بناء نماذج على مستوى البايت بناءً على نظام أولمو البيئي.

نظرًا لأن تدريب نموذج على مستوى البايت بالكامل من الصفر يمكن أن يكون مكلفًا، اختار الباحثون في Ai2 بدلاً من ذلك نقطة تحقق أولمو 3 7B الموجودة لتحويلها إلى بايت على مرحلتين.

في المرحلة الأولى، جمدت Ai2 محول أولمو 3 بحيث يتم تدريب أجزاء معينة فقط، مثل المشفر والمفكك المحلي، ومحدد الحدود، ورأس نمذجة اللغة. تم تصميم هذا ليكون “رخيصًا وسريعًا” ويتطلب فقط 9.8 مليار توكن.

تقوم المرحلة التالية بإلغاء تجميد النموذج وتدريبه باستخدام توكنات إضافية. قالت Ai2 إن النهج القائم على مستوى البايت يسمح لبولمو بتجنب اختناقات المفردات التي تحد من النماذج الفرعية التقليدية.

أداء قوي بين أقرانه

ليست نماذج اللغة على مستوى البايت شائعة مثل النماذج الصغيرة أو LLMs، لكن هذا مجال متنامٍ في البحث. أصدرت ميتا بحثًا عن معمارية BLT العام الماضي، تهدف إلى تقديم نموذج قوي، يعالج البيانات الخام، ولا يعتمد على مفردات ثابتة.

تشمل نماذج البحث الأخرى في هذا المجال ByT5 وMrT5 من جامعة ستانفورد وCanine.

قامت Ai2 بتقييم بولمو باستخدام مجموعة تقييمها، التي تغطي الرياضيات، والتفكير في العلوم والتكنولوجيا والهندسة والرياضيات، والإجابة على الأسئلة، والمعرفة العامة، والبرمجة. أظهر بولمو 7B أداءً قويًا، متفوقًا على معايير التركيز على الأحرف مثل CUTE وEXECUTE، كما حسّن الدقة مقارنةً بالنموذج الأساسي LLM أولمو 3.

تفوق بولمو 7B على نماذج بحجم مشابه في البرمجة، والرياضيات، والأسئلة متعددة الخيارات، وفهم المستوى الأحرف.

لماذا قد تختار الشركات نماذج على مستوى البايت

تجد الشركات قيمة في هيكل نموذج هجين، باستخدام مزيج من النماذج وأحجام النماذج.

تجعل Ai2 الحالة بأن المنظمات يجب أن تأخذ في الاعتبار أيضًا نماذج على مستوى البايت ليس فقط للمتانة والفهم متعدد اللغات، ولكن لأنها “تتصل بشكل طبيعي بنظام نماذج قائم”.

“ميزة رئيسية للإعداد الديناميكي الهرمي هي أن الضغط يصبح مفتاحًا قابلًا للتبديل”، قالت الشركة.

بالنسبة للشركات التي تدير بالفعل مجموعات نماذج غير متجانسة، تشير بولمو إلى أن نماذج على مستوى البايت قد لا تكون أكاديمية بحتة بعد الآن. من خلال إعادة تجهيز نموذج فرعي قوي بدلاً من التدريب من الصفر، تشير Ai2 إلى مسار أقل خطرًا للمنظمات التي ترغب في المتانة دون التخلي عن البنية التحتية الحالية.

من خلال إعادة تجهيز نموذج فرعي قوي بدلاً من التدريب من الصفر، تشير Ai2 إلى مسار أقل خطرًا للمنظمات التي ترغب في المتانة دون التخلي عن البنية التحتية الحالية.

مقالات ذات صلة

زر الذهاب إلى الأعلى