الذكاء الاصطناعي

بولمو: نموذج لغة على مستوى البايت يعزز التدريب الفعال

يعتبر نموذج بولمو من Ai2 خطوة متقدمة في مجال نماذج اللغة، حيث يقدم حلاً فعالًا لتدريب نماذج متعددة اللغات بدون الحاجة إلى محولات.

تتجه المؤسسات التي ترغب في استخدام نماذج متعددة اللغات بدون محولات إلى نماذج اللغة على مستوى البايت لتقليل الهشاشة في النصوص الضوضائية أو ذات الموارد المحدودة. ولتلبية هذه الحاجة — وجعلها عملية على نطاق واسع — قدم معهد ألين للذكاء الاصطناعي (Ai2) نموذج بولمو، وهو عائلة جديدة من النماذج التي تستفيد من نماذج أولمو 3 من خلال “تحويلها إلى بايت” وإعادة استخدام هيكلها وقدراتها.

أطلقت الشركة نسختين، بولمو 7B وبولمو 1B، والتي تعتبر “أول نموذج لغة على مستوى البايت مفتوح بالكامل”، وفقًا لـ Ai2. وقالت الشركة إن النموذجين أديا أداءً تنافسيًا — وفي بعض الحالات تجاوزا — نماذج أخرى على مستوى البايت والنماذج المعتمدة على الأحرف.

تعمل نماذج اللغة على مستوى البايت مباشرة على بايتات UTF-8 الخام، مما يلغي الحاجة إلى مفردات محددة مسبقًا أو محولات. وهذا يسمح لها بالتعامل مع الأخطاء الإملائية، واللغات النادرة، والنصوص غير التقليدية بشكل أكثر موثوقية — وهي متطلبات رئيسية للإشراف، والنشر على الأطراف، والتطبيقات متعددة اللغات.

بالنسبة للمؤسسات التي تنشر الذكاء الاصطناعي عبر عدة لغات، أو المدخلات الضوضائية من المستخدمين، أو البيئات المقيدة، توفر النماذج بدون محولات وسيلة لتقليل التعقيد التشغيلي. يعد بولمو من Ai2 محاولة لجعل هذا النهج عمليًا على نطاق واسع — دون إعادة التدريب من الصفر.

كيف يعمل بولمو وكيف تم بناؤه

قالت Ai2 إنها قامت بتدريب نماذج بولمو باستخدام مزيج بيانات Dolma 3، الذي ساعد في تدريب نماذج أولمو الرائدة، وبعض مجموعات البيانات المفتوحة والبيانات المعتمدة على الأحرف.

وقالت الشركة إن هدفها “هو توفير مخطط قابل للتكرار والتفتيش لتحويل نماذج اللغة الفرعية القوية إلى بايت بطريقة يمكن للمجتمع اعتمادها وتوسيعها.” لتحقيق هذا الهدف، ستقوم Ai2 بإصدار نقاط التحقق الخاصة بها، والرمز، وورقة كاملة لمساعدة المنظمات الأخرى في بناء نماذج على مستوى البايت فوق نظام أولمو البيئي الخاص بها.

نظرًا لأن تدريب نموذج على مستوى البايت بالكامل من الصفر يمكن أن يكون مكلفًا، اختار باحثو Ai2 بدلاً من ذلك نقطة تحقق موجودة من أولمو 3 7B لتحويلها إلى بايت على مرحلتين.

في المرحلة الأولى، قامت Ai2 بتجميد محول أولمو 3 بحيث يتم تدريب أجزاء معينة فقط، مثل المشفر المحلي والمفكك، ومحدد الحدود، ورأس نمذجة اللغة. تم تصميم ذلك ليكون “رخيصًا وسريعًا” ويتطلب فقط 9.8 مليار رمز.

تقوم المرحلة التالية بإلغاء تجميد النموذج وتدريبه باستخدام رموز إضافية. وقالت Ai2 إن النهج على مستوى البايت يسمح لبولمو بتجنب الاختناقات الناتجة عن المفردات التي تحد من النماذج الفرعية التقليدية.

أداء قوي بين أقرانه

ليست نماذج اللغة على مستوى البايت شائعة مثل النماذج الصغيرة أو LLMs، ولكن هذا مجال متنام في البحث. أصدرت ميتا أبحاث هيكل BLT العام الماضي، بهدف تقديم نموذج قوي، يعالج البيانات الخام، ولا يعتمد على مفردات ثابتة.

تشمل النماذج البحثية الأخرى في هذا المجال ByT5، وMrT5 من جامعة ستانفورد، وCanine.

قامت Ai2 بتقييم بولمو باستخدام مجموعة التقييم الخاصة بها، التي تغطي الرياضيات، والتفكير في العلوم، والإجابة على الأسئلة، والمعرفة العامة، والبرمجة. أظهر بولمو 7B أداءً قويًا، متفوقًا على المعايير التي تركز على الأحرف مثل CUTE وEXECUTE، كما حسّن الدقة مقارنة بالنموذج الأساسي LLM أولمو 3.

تجاوز بولمو 7B نماذج بحجم مماثل في البرمجة، والرياضيات، وأسئلة الاختيار المتعدد، وفهم الأحرف.

لماذا قد تختار المؤسسات نماذج على مستوى البايت

تجد المؤسسات قيمة في هيكل النموذج الهجين، باستخدام مزيج من النماذج وأحجام النماذج.

تجعل Ai2 الحالة بأن المنظمات يجب أن تأخذ في الاعتبار أيضًا نماذج على مستوى البايت ليس فقط من أجل المتانة والفهم متعدد اللغات، ولكن لأنها “تتصل بشكل طبيعي بنظام النموذج القائم.”

“تتمثل إحدى المزايا الرئيسية للإعداد الهرمي الديناميكي في أن الضغط يصبح قابلاً للتعديل،” قالت الشركة.

بالنسبة للمؤسسات التي تعمل بالفعل على مجموعات نماذج غير متجانسة، يقترح بولمو أن نماذج على مستوى البايت قد لا تكون أكاديمية بحتة. من خلال إعادة تجهيز نموذج فرعي قوي بدلاً من التدريب من الصفر، تشير Ai2 إلى مسار أقل خطرًا للمنظمات التي ترغب في المتانة دون التخلي عن البنية التحتية الحالية.

مع استمرار تطور التكنولوجيا، يمثل بولمو نموذجًا واعدًا للمؤسسات التي تسعى لتحقيق الكفاءة والمتانة في تطبيقات الذكاء الاصطناعي.

مقالات ذات صلة

زر الذهاب إلى الأعلى