تقييمات Align من LangChain: سد الفجوة في الثقة

هل ترغب في الحصول على رؤى أذكى في بريدك الوارد؟ اشترك في نشراتنا الأسبوعية للحصول على كل ما يهم قادة الذكاء الاصطناعي المؤسسي والبيانات والأمان. اشترك الآن
مع تزايد اعتماد المؤسسات على نماذج الذكاء الاصطناعي لضمان عمل تطبيقاتها بشكل جيد وموثوق، أصبحت الفجوات بين التقييمات التي يقودها النموذج والتقييمات البشرية أكثر وضوحًا.
لمواجهة ذلك، أضافت LangChain تقييمات Align إلى LangSmith، وهي وسيلة لردم الفجوة بين المقيمين المعتمدين على نماذج اللغة الكبيرة وتفضيلات البشر وتقليل الضوضاء. تتيح تقييمات Align لمستخدمي LangSmith إنشاء مقيمين معتمدين على نماذج اللغة الكبيرة الخاصة بهم ومعايرتهم لتتوافق بشكل أكبر مع تفضيلات الشركة.
“لكن، التحدي الكبير الذي نسمعه باستمرار من الفرق هو: ‘لا تتطابق درجات تقييمنا مع ما نتوقع أن يقوله إنسان في فريقنا.’ هذه الفجوة تؤدي إلى مقارنات مضطربة ووقت ضائع في البحث عن إشارات خاطئة،” كما قالت LangChain في منشور مدونة.
تُعتبر LangChain واحدة من المنصات القليلة التي تدمج نموذج LLM كقاضٍ، أو التقييمات التي يقودها النموذج لنماذج أخرى، مباشرة في لوحة الاختبار.
كيفية البدء
سيقوم المستخدمون أولاً بتحديد معايير التقييم لتطبيقاتهم. على سبيل المثال، تتطلب تطبيقات الدردشة عادةً الدقة.
بعد ذلك، يجب على المستخدمين اختيار البيانات التي يريدون مراجعتها من قبل البشر. يجب أن تُظهر هذه الأمثلة الجوانب الجيدة والسيئة حتى يتمكن المقيمون من الحصول على رؤية شاملة للتطبيق وتعيين مجموعة من الدرجات. ثم يتعين على المطورين تعيين درجات يدوية للمهام أو الأهداف التي ستعمل كمعيار.
بعد ذلك، يحتاج المطورون إلى إنشاء موجه أولي لمقيم النموذج والتكرار باستخدام نتائج المحاذاة من المقيمين البشر.
“على سبيل المثال، إذا كان نموذج LLM الخاص بك يبالغ في تقييم بعض الردود، حاول إضافة معايير سلبية أكثر وضوحًا. تحسين درجة مقيمك يُقصد به أن يكون عملية تكرارية. تعرف على المزيد حول أفضل الممارسات في تكرار موجهك في وثائقنا،” قالت LangChain.
زيادة عدد تقييمات LLM
تتجه المؤسسات بشكل متزايد نحو أطر التقييم لتقييم موثوقية وسلوك ومواءمة المهام وقابلية تدقيق أنظمة الذكاء الاصطناعي، بما في ذلك التطبيقات والوكلاء. القدرة على الإشارة إلى درجة واضحة حول كيفية أداء النماذج أو الوكلاء لا توفر فقط الثقة للمؤسسات لنشر تطبيقات الذكاء الاصطناعي، بل تجعل أيضًا من السهل مقارنة النماذج الأخرى.
بدأت شركات مثل Salesforce وAWS في تقديم طرق للعملاء لتقييم الأداء. يحتوي مركز التحكم في Agentforce 3 من Salesforce على عرض لأداء الوكلاء. توفر AWS تقييمًا بشريًا وآليًا على منصة Amazon Bedrock، حيث يمكن للمستخدمين اختيار النموذج لاختبار تطبيقاتهم، على الرغم من أن هذه ليست مقيمين تم إنشاؤهم بواسطة المستخدم. كما تقدم OpenAI تقييمًا قائمًا على النموذج.
يبني مُقيّم Meta الذاتي على نفس مفهوم LLM كقاضٍ الذي تستخدمه LangSmith، على الرغم من أن Meta لم تجعلها ميزة لأي من منصات بناء التطبيقات الخاصة بها حتى الآن.