فارا-7B من مايكروسوفت: وكيل الذكاء الاصطناعي الجديد

في عالم الذكاء الاصطناعي المتطور، قدمت مايكروسوفت نموذجًا جديدًا يعد بتغيير طريقة استخدامنا للتكنولوجيا. تعرف على فارا-7B، وكيل الذكاء الاصطناعي الذي يعمل مباشرة على جهاز الكمبيوتر الخاص بك.
فارا-7B من مايكروسوفت: وكيل الذكاء الاصطناعي الذي ينافس GPT-4o ويعمل مباشرة على جهاز الكمبيوتر الخاص بك
قدمت مايكروسوفت فارا-7B، نموذج جديد يحتوي على 7 مليارات معلمة، مصمم ليعمل كوكيل استخدام الكمبيوتر (CUA) قادر على أداء مهام معقدة مباشرة على جهاز المستخدم. يحقق فارا-7B نتائج رائدة جديدة بحجمه، مما يوفر وسيلة لبناء وكلاء ذكاء اصطناعي لا تعتمد على نماذج ضخمة تعتمد على السحابة، ويمكن أن تعمل على أنظمة مدمجة مع زمن استجابة أقل وخصوصية محسنة.
بينما النموذج هو إصدار تجريبي، فإن هيكله يعالج حاجزًا رئيسيًا أمام اعتماد الشركات: أمان البيانات. نظرًا لأن فارا-7B صغير بما يكفي للعمل محليًا، فإنه يسمح للمستخدمين بأتمتة سير العمل الحساسة، مثل إدارة الحسابات الداخلية أو معالجة بيانات الشركة الحساسة، دون مغادرة تلك المعلومات للجهاز.
كيف يرى فارا-7B الويب
تم تصميم فارا-7B للتنقل في واجهات المستخدم باستخدام نفس الأدوات التي يستخدمها الإنسان: الماوس ولوحة المفاتيح. يعمل النموذج من خلال إدراك صفحة الويب بصريًا عبر لقطات الشاشة وتوقع إحداثيات محددة لأفعال مثل النقر، الكتابة، والتمرير.
من المهم أن نلاحظ أن فارا-7B لا يعتمد على “أشجار الوصول”، وهي الهيكلية البرمجية الأساسية التي تستخدمها المتصفحات لوصف صفحات الويب لقرّاء الشاشة. بدلاً من ذلك، يعتمد فقط على بيانات بصرية على مستوى البكسل. تتيح هذه الطريقة للوكيل التفاعل مع المواقع حتى عندما يكون الكود الأساسي معقدًا أو غير واضح.
وفقًا ليش لارا، قائد إدارة المشاريع العليا في أبحاث مايكروسوفت، فإن معالجة جميع المدخلات البصرية على الجهاز تخلق “سيادة بكسل” حقيقية، حيث تبقى لقطات الشاشة والتفكير اللازم للأتمتة على جهاز المستخدم. “تساعد هذه الطريقة المؤسسات على تلبية المتطلبات الصارمة في القطاعات المنظمة، بما في ذلك HIPAA وGLBA،” كما قال لـ VentureBeat في تعليقات مكتوبة.
في اختبارات المعايرة، حققت هذه الطريقة البصرية نتائج قوية. على WebVoyager، وهو معيار قياسي لوكلاء الويب، حقق فارا-7B معدل نجاح في المهام بلغ 73.5%. يتفوق هذا على الأنظمة الأكبر والأكثر استهلاكًا للموارد، بما في ذلك GPT-4o، عندما تم الطلب منه العمل كوكيل استخدام الكمبيوتر (65.1%) ونموذج UI-TARS-1.5-7B الأصلي (66.4%).
الكفاءة هي عامل تمييز آخر. في الاختبارات المقارنة، أكمل فارا-7B المهام في حوالي 16 خطوة في المتوسط، مقارنةً بحوالي 41 خطوة لنموذج UI-TARS-1.5-7B.
التعامل مع المخاطر
ومع ذلك، فإن الانتقال إلى الوكلاء المستقلين ليس بدون مخاطر. تشير مايكروسوفت إلى أن فارا-7B يشارك القيود الشائعة بين نماذج الذكاء الاصطناعي الأخرى، بما في ذلك الهلوسة المحتملة، والأخطاء في اتباع التعليمات المعقدة، وتدهور الدقة في المهام المعقدة.
لتخفيف هذه المخاطر، تم تدريب النموذج على التعرف على “النقاط الحرجة”. تُعرف النقطة الحرجة بأنها أي حالة تتطلب بيانات شخصية للمستخدم أو موافقته قبل حدوث إجراء لا يمكن التراجع عنه، مثل إرسال بريد إلكتروني أو إتمام معاملة مالية. عند الوصول إلى مثل هذه النقطة، تم تصميم فارا-7B للتوقف وطلب موافقة المستخدم بشكل صريح قبل المتابعة.
إدارة هذا التفاعل دون إحباط المستخدم هي تحدٍ تصميم رئيسي. “التوازن بين الضمانات القوية مثل النقاط الحرجة مع رحلات المستخدم السلسة هو أمر أساسي،” قال لارا. “وجود واجهة مستخدم، مثل واجهة Magentic-UI من أبحاث مايكروسوفت، أمر حيوي لتوفير الفرص للمستخدمين للتدخل عند الضرورة، مع المساعدة أيضًا في تجنب إرهاق الموافقة.” تم تصميم فارا-7B للعمل في واجهة Magentic-UI.
تقطير التعقيد في نموذج واحد
تسلط تطوير فارا-7B الضوء على اتجاه متزايد في تقطير المعرفة، حيث يتم ضغط قدرات نظام معقد في نموذج أصغر وأكثر كفاءة.
يتطلب إنشاء CUA عادة كميات هائلة من بيانات التدريب التي تظهر كيفية التنقل في الويب. جمع هذه البيانات عبر التعليق البشري مكلف للغاية. لحل هذه المشكلة، استخدمت مايكروسوفت خط أنابيب بيانات صناعية مبني على Magentic-One، وهو إطار عمل متعدد الوكلاء. في هذا الإعداد، أنشأ وكيل “منظم” خططًا ووجه وكيل “WebSurfer” لتصفح الويب، مما أدى إلى إنشاء 145,000 مسار مهمة ناجح.
ثم قام الباحثون “بتقطير” بيانات التفاعل المعقدة هذه إلى فارا-7B، الذي يعتمد على Qwen2.5-VL-7B، وهو نموذج أساسي تم اختياره بسبب نافذة السياق الطويلة (حتى 128,000 توكن) وقدرته القوية على ربط التعليمات النصية بالعناصر المرئية على الشاشة. بينما كانت عملية توليد البيانات تتطلب نظام متعدد الوكلاء ثقيل، فإن فارا-7B نفسه هو نموذج واحد، مما يظهر أن نموذجًا صغيرًا يمكن أن يتعلم سلوكيات متقدمة بفعالية دون الحاجة إلى دعم معقد أثناء وقت التشغيل.
اعتمدت عملية التدريب على تحسين إشرافي دقيق، حيث يتعلم النموذج من خلال تقليد الأمثلة الناجحة التي تم إنشاؤها بواسطة خط الأنابيب الصناعي.
نحو المستقبل
بينما تم تدريب النسخة الحالية على مجموعات بيانات ثابتة، ستركز الإصدارات المستقبلية على جعل النموذج أكثر ذكاءً، وليس بالضرورة أكبر. “المضي قدمًا، سنسعى للحفاظ على الحجم الصغير لنماذجنا،” قال لارا. “تركز أبحاثنا المستمرة على جعل النماذج الوكيلة أكثر ذكاءً وأمانًا، وليس فقط أكبر.” يشمل ذلك استكشاف تقنيات مثل التعلم المعزز (RL) في بيئات معزولة، مما سيسمح للنموذج بالتعلم من التجربة والخطأ في الوقت الحقيقي.
قدمت مايكروسوفت النموذج على Hugging Face وMicrosoft Foundry بموجب ترخيص MIT. ومع ذلك، يحذر لارا من أنه بينما يسمح الترخيص بالاستخدام التجاري، فإن النموذج ليس جاهزًا للإنتاج بعد. “يمكنك التجربة بحرية وتجربة فارا-7B بموجب ترخيص MIT،” كما يقول، “لكن من الأفضل استخدامه في التجارب والنماذج الأولية بدلاً من النشر في مهام حاسمة.”
بينما يتطور فارا-7B، يبقى التركيز على تحقيق التوازن بين الأمان والكفاءة. تابعونا لمزيد من التحديثات حول هذه التقنية المثيرة.




