الذكاء الاصطناعي

إطلاق Terminal-Bench 2.0 وHarbor: إطار جديد لاختبار الوكلاء

أطلق مطورو Terminal-Bench الإصدار 2.0 مع Harbor، إطار جديد يهدف إلى تحسين اختبار الوكلاء الذكيين في بيئات الحاويات.

إطلاق Terminal-Bench 2.0 إلى جانب Harbor: إطار جديد لاختبار الوكلاء في الحاويات

أطلق مطورو Terminal-Bench، مجموعة المعايير لتقييم أداء الوكلاء الذكيين المستقلين في المهام الحقيقية المعتمدة على الطرفية، الإصدار 2.0 إلى جانب Harbor، إطار عمل جديد لاختبار وتحسين وتطوير الوكلاء الذكيين في بيئات الحاويات.

يهدف هذا الإطلاق المزدوج إلى معالجة نقاط الألم المستمرة في اختبار وتحسين الوكلاء الذكيين، لا سيما أولئك الذين تم تصميمهم للعمل بشكل مستقل في بيئات تطوير واقعية.

مع مجموعة مهام أكثر صعوبة وتحقيقًا دقيقًا، يحل Terminal-Bench 2.0 محل الإصدار 1.0 كمعيار لتقييم قدرات النماذج المتقدمة.

يسمح إطار العمل المصاحب، Harbor، للمطورين والباحثين بتوسيع التقييمات عبر آلاف الحاويات السحابية ويتكامل مع الوكلاء وأنظمة التدريب سواء كانت مفتوحة المصدر أو ملكية.

كتب المشارك في الإبداع أليكس شو على X: “Harbor هو الحزمة التي كنا نتمنى أن تكون لدينا أثناء إنشاء Terminal-Bench. إنه مخصص لمطوري الوكلاء والنماذج والمعايير الذين يرغبون في تقييم وتحسين الوكلاء والنماذج.”

معايير أعلى وبيانات أنظف

شهد Terminal-Bench 1.0 اعتمادًا سريعًا بعد إصداره في مايو 2025، ليصبح معيارًا افتراضيًا لتقييم أداء الوكلاء عبر مجال الوكلاء المدعومين بالذكاء الاصطناعي العاملين في بيئات الطرفية. تتفاعل هذه الوكلاء مع الأنظمة من خلال سطر الأوامر، مقلدين كيفية عمل المطورين خلف واجهة المستخدم الرسومية.

ومع ذلك، جاءت نطاقه الواسع مع عدم الاتساق. تم تحديد العديد من المهام من قبل المجتمع على أنها غير محددة بشكل جيد أو غير مستقرة بسبب تغييرات في الخدمات الخارجية.

يعالج الإصدار 2.0 هذه القضايا مباشرة. تتضمن المجموعة المحدثة 89 مهمة، كل منها خضعت لعدة ساعات من التحقق اليدوي والمساعد بواسطة LLM. التركيز على جعل المهام قابلة للحل، واقعية، ومحددة بوضوح، مما يرفع من سقف الصعوبة مع تحسين الموثوقية وقابلية التكرار.

مثال بارز هو مهمة تحميل يوتيوب، التي تمت إزالتها أو إعادة صياغتها في 2.0 بسبب اعتمادها على واجهات برمجة التطبيقات الخارجية غير المستقرة.

أشار شو على X: “قد يلاحظ المعجبون الأذكياء بـ Terminal-Bench أن الأداء SOTA مشابه لـ TB1.0 على الرغم من ادعائنا بأن TB2.0 أصعب.” نحن نعتقد أن جودة المهام أعلى بكثير في المعيار الجديد.

Harbor: نشر موحد على نطاق واسع

إلى جانب تحديث المعيار، أطلق الفريق Harbor، إطار عمل جديد لتشغيل وتقييم الوكلاء في الحاويات السحابية.

يدعم Harbor بنية تحتية للنشر على نطاق واسع، مع توافق مع مزودين رئيسيين مثل Daytona و Modal.

تم تصميمه للتعميم عبر هياكل الوكلاء، يدعم Harbor:

  • تقييم أي وكيل قابل للتثبيت في حاوية

  • تدريب إشرافي قابل للتوسع (SFT) وخطوط أنابيب التعلم المعزز (RL)

  • إنشاء ونشر معايير مخصصة

  • تكامل كامل مع Terminal-Bench 2.

تم استخدام Harbor داخليًا لتشغيل عشرات الآلاف من النشر أثناء إنشاء المعيار الجديد. وهو متاح الآن للجمهور عبر harborframework.com، مع توثيق لاختبار وتقديم الوكلاء إلى قائمة المتصدرين العامة.

نتائج مبكرة: GPT-5 يتصدر في نجاح المهام

تظهر النتائج الأولية من قائمة المتصدرين في Terminal-Bench 2.0 أن واجهة سطر الأوامر Codex CLI المدعومة من GPT-5 تتصدر، بمعدل نجاح 49.6% — الأعلى بين جميع الوكلاء الذين تم اختبارهم حتى الآن.

تتبعها عن كثب نماذج أخرى مدعومة من GPT-5 ووكلاء قائمين على Claude Sonnet 4.5.

أفضل 5 نتائج للوكلاء (Terminal-Bench 2.0):

  1. Codex CLI (GPT-5) — 49.6%

  2. Codex CLI (GPT-5-Codex) — 44.3%

  3. OpenHands (GPT-5) — 43.8%

  4. Terminus 2 (GPT-5-Codex) — 43.4%

  5. Terminus 2 (Claude Sonnet 4.5) — 42.8%

تشير التجمعات القريبة بين النماذج العليا إلى منافسة نشطة عبر المنصات، مع عدم حل أي وكيل لأكثر من نصف المهام.

التقديم والاستخدام

لاختبار أو تقديم وكيل، يقوم المستخدمون بتثبيت Harbor وتشغيل المعيار باستخدام أوامر CLI بسيطة. تتطلب التقديمات إلى قائمة المتصدرين خمس عمليات تشغيل للمعيار، ويمكن إرسال النتائج عبر البريد الإلكتروني إلى المطورين مع أدلة الوظائف للتحقق.

harbor run -d [email protected] -m "" -a "" --n-attempts 5 --jobs-dir 

يتم دمج Terminal-Bench 2.0 بالفعل في سير العمل البحثي الذي يركز على التفكير الوكالي، وتوليد الشيفرة، واستخدام الأدوات. وفقًا للمشارك في الإبداع مايك ميريل، باحث ما بعد الدكتوراه في جامعة ستانفورد، يتم إعداد مسودة مفصلة تغطي عملية التحقق ومنهجية التصميم وراء المعيار.

السعي نحو التوحيد القياسي

يمثل الإطلاق المشترك لـ Terminal-Bench 2.0 وHarbor خطوة نحو بنية تحتية أكثر اتساقًا وقابلية للتوسع لتقييم الوكلاء. مع انتشار الوكلاء المدعومين بالذكاء الاصطناعي في بيئات التطوير والتشغيل، زادت الحاجة إلى اختبار خاضع للرقابة وقابل للتكرار.

تقدم هذه الأدوات أساسًا محتملاً لمكدس تقييم موحد — يدعم تحسين النماذج، ومحاكاة البيئة، وتوحيد المعايير عبر نظام الذكاء الاصطناعي.

يمثل هذا الإطلاق خطوة مهمة نحو تحسين وتوحيد تقييم الوكلاء الذكيين في البيئات الحديثة.

مقالات ذات صلة

زر الذهاب إلى الأعلى