تقنيات المستقبل

تدريب نموذج لغوي كبير باستخدام بيانات مفتوحة المصدر: تحديات أخلاقية وتقنية في عالم الذكاء الاصطناعي

قام فريق مكون من أكثر من عشرين باحثًا في مجال الذكاء الاصطناعي من معهد ماساتشوستس للتكنولوجيا (MIT)، وجامعة كورنيل، وجامعة تورنتو، ومؤسسات أخرى، بتدريب نموذج لغوي كبير باستخدام بيانات مرخصة بشكل مفتوح أو ضمن الملكية العامة فقط، حسبما أفادت صحيفة واشنطن بوست، مما يقدّم نموذجًا أخلاقيًا لتطوير هذه التقنية.

لكن، كما أقرّ المنشئون، لم يكن الأمر سهلاً على الإطلاق.

وفقًا لوصفهم في ورقة بحثية لم تُراجع بعد، نُشرت هذا الأسبوع، تبين بسرعة أن العائق لم يكن في قدرة الحوسبة، بل في الموارد البشرية.

ذلك لأن النصوص التي جمّعوها في مجموعة بيانات ضخمة تزيد عن ثمانية تيرابايت، والتي أسموها “Common Pile v0.1″، كان لا بد من تنظيفها يدويًا وإعادة تنسيقها لتصبح صالحة لتدريب الذكاء الاصطناعي، كما تشرح واشنطن بوست. علاوة على ذلك، تطلّب الأمر جهودًا كبيرة للتحقق المزدوج من حالة حقوق النشر لجميع البيانات، لأن العديد من الأعمال على الإنترنت يتم ترخيصها بشكل غير صحيح.

وقالت ستيلّا بيديرمان، عالمة الحاسوب والمديرة التنفيذية لمنظمة Eleuther AI غير الربحية والمشاركة في الدراسة: “هذا ليس أمرًا يمكن فقط زيادة الموارد المتاحة لديك، مثل الحصول على المزيد من شرائح الحوسبة أو أداة جمع البيانات المتقدمة.” وأضافت: “نستخدم أدوات آلية، لكن كل شيء تمّ تعليقه يدويًا وفحصه من قبل أشخاص، وهذا أمر صعب جدًا.”

مع ذلك، تمكنت بيديرمان وزملاؤها من إنجاز المهمة.

بعد هذا العمل الشاق في إنشاء مجموعة البيانات Common Pile، استخدموا بياناتهم المضمونة أخلاقيًا لتدريب نموذج لغوي ضخم يحتوي على سبعة مليارات معامل. والنتيجة؟ نموذج ذكاء اصطناعي يمكن مقارنته بنماذج صناعية مثل Meta Llama 1 وLlama 2 بحجم 7 مليارات معاملات — وهذا أمر مثير للإعجاب، مع العلم أن هذه النماذج تعود إلى أكثر من عامين، وهي فترة طويلة في سباق الذكاء الاصطناعي.

بالطبع، تم هذا الإنجاز من قبل فريق صغير نسبيًا وليس شركة تملك مليارات الدولارات، ولذلك كان عليهم التعويض عن نقص الموارد بالابتكار. ومن الاكتشافات المميزة كان العثور على أكثر من 130,000 كتاب باللغة الإنجليزية من مكتبة الكونغرس لم يكن يُنظر إليها من قبل.

حقوق النشر ما زالت تمثل أحد أكبر الأسئلة الأخلاقية والقانونية التي تحوم حول الذكاء الاصطناعي. فقد استخدمت شركات كبرى مثل OpenAI وGoogle كميات هائلة من البيانات المتاحة على الشبكة العنكبوتية، ابتداءً من المقالات الإخبارية وحتى بيانات شخصية حساسة من وسائل التواصل الاجتماعي. كما رفعت دعاوى قضائية ضد Meta تتهمها باستخدام ملايين الكتب المحمية بحقوق نشر دون إذن لتدريب أنظمتها.

تبرر الصناعة هذا السلوك بحجة “الاستخدام العادل” فضلاً عن القول بأنه من “المستحيل” تطوير هذه التقنية دون استهلاك محتوى الجميع مجانًا.

لكن هذا العمل الأخير يشكل ردًا على تلك الحجج، رغم أنه لا يلغي كل المخاوف الأخلاقية. فالنموذج اللغوي الكبير يظل تقنية تهدد الوظائف، وربما ليس كل من أُدرجت أعمالهم في الملكية العامة سيكون راضيًا عن استخدامها في إعادة إنتاج محتوى عبر الذكاء الاصطناعي — خاصة إذا لم يكونوا فنانون متوفين انتهت حقوق نشرهم.

حتى لو تم فرض قيود صارمة على شركات الذكاء الاصطناعي بحيث تستخدم فقط الأعمال المرخصة أو التي تم دفع تعويضات عنها — وهو احتمال كبير — يبقى هناك ضغط مستمر على أصحاب حقوق النشر للسماح بتدريب الذكاء الاصطناعي.

تقول بيديرمان إنها لا تتوقع أن تتغير ممارسات شركات مثل OpenAI فجأة لتصبح نموذجًا للشفافية في مصادر البيانات، لكنها تأمل أن يدفع عملها هذه الشركات إلى التوقف عن إخفاء مصادر تدريب نماذجها.

وأضافت: “حتى الشفافية الجزئية تحمل قيمة اجتماعية كبيرة وقيمة علمية معتدلة.”

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى