تقييمات Align Evals من LangChain: سد الفجوة في الثقة مع المعايرة على مستوى المطالبات

تستمر الشركات في الاعتماد على الذكاء الاصطناعي لضمان أداء التطبيقات بشكل موثوق. لكن كيف يمكن سد الفجوة بين تقييمات النماذج البشرية والنماذج؟
هل ترغب في الحصول على رؤى أذكى في بريدك الوارد؟ اشترك في نشراتنا الأسبوعية للحصول على ما يهم قادة الذكاء الاصطناعي المؤسسي والبيانات والأمن. اشترك الآن
مع تزايد اعتماد الشركات على نماذج الذكاء الاصطناعي لضمان أداء تطبيقاتها بشكل جيد وموثوق، أصبحت الفجوات بين التقييمات التي يقودها النموذج والتقييمات البشرية أكثر وضوحًا.
لمواجهة ذلك، أضافت LangChain ميزة Align Evals إلى LangSmith، وهي وسيلة لسد الفجوة بين المقيمين المعتمدين على نماذج اللغة الكبيرة وتفضيلات البشر وتقليل الضوضاء. تتيح Align Evals لمستخدمي LangSmith إنشاء مقيمين معتمدين على نماذج اللغة الكبيرة الخاصة بهم ومعايرتهم لتتوافق بشكل أكبر مع تفضيلات الشركة.
قالت LangChain في منشور على مدونتها: “لكن، التحدي الكبير الذي نسمعه باستمرار من الفرق هو: ‘لا تتطابق درجات تقييمنا مع ما نتوقع أن يقوله إنسان في فريقنا.’ هذه الفجوة تؤدي إلى مقارنات مضطربة ووقت ضائع في متابعة إشارات خاطئة.”
تعتبر LangChain واحدة من القلائل الذين يدمجون نموذج LLM كقاضي، أو التقييمات التي يقودها النموذج لنماذج أخرى، مباشرة في لوحة الاختبار.
سلسلة تأثير الذكاء الاصطناعي تعود إلى سان فرانسيسكو – 5 أغسطس
المرحلة التالية من الذكاء الاصطناعي هنا – هل أنت مستعد؟ انضم إلى قادة من Block وGSK وSAP للحصول على نظرة حصرية على كيفية إعادة تشكيل الوكلاء المستقلين لتدفقات العمل المؤسسية – من اتخاذ القرارات في الوقت الحقيقي إلى الأتمتة الشاملة.
احجز مكانك الآن – الأماكن محدودة:
قالت الشركة إنها استندت في تصميم Align Evals إلى ورقة عالم البيانات في أمازون يوجين يان. في ورقته، وضع يان الإطار لتطبيق، يسمى أيضًا AlignEval، الذي سيقوم بأتمتة أجزاء من عملية التقييم.
ستسمح Align Evals للشركات والمطورين الآخرين بتكرار مطالبات التقييم، ومقارنة درجات المحاذاة من المقيمين البشريين ودرجات LLM إلى درجة المحاذاة الأساسية.
قالت LangChain إن Align Evals “هي الخطوة الأولى في مساعدتك على بناء مقيمين أفضل.” بمرور الوقت، تهدف الشركة إلى دمج التحليلات لتتبع الأداء وأتمتة تحسين المطالبات، مما ينتج عنه تباينات تلقائية في المطالبات.
كيفية البدء
سيقوم المستخدمون أولاً بتحديد معايير التقييم لتطبيقاتهم. على سبيل المثال، تتطلب تطبيقات الدردشة عادةً الدقة.
بعد ذلك، يحتاج المستخدمون إلى اختيار البيانات التي يرغبون في مراجعتها من قبل البشر. يجب أن تُظهر هذه الأمثلة الجوانب الجيدة والسيئة حتى يتمكن المقيمون البشر من الحصول على رؤية شاملة للتطبيق وتعيين مجموعة من الدرجات. ثم يتعين على المطورين تعيين درجات يدويًا للمطالبات أو أهداف المهام التي ستعمل كمعيار.
هذه واحدة من ميزاتي المفضلة التي أطلقناها!
إنشاء مقيمين LLM كقضاة أمر صعب – آمل أن يجعل ذلك التدفق أسهل قليلاً
أؤمن بهذا التدفق لدرجة أنني سجلت فيديو حوله! https://t.co/wAQpYZMeov
— هاريسون تشايس (@hwchase17) 30 يوليو 2025
ثم يحتاج المطورون إلى إنشاء مطالبة أولية لمقيم النموذج وتكرارها باستخدام نتائج المحاذاة من المقيمين البشريين.
“على سبيل المثال، إذا كان نموذج LLM الخاص بك يقوم بتقييم بعض الردود بشكل زائد باستمرار، حاول إضافة معايير سلبية أكثر وضوحًا. تحسين درجة مقيمك هو عملية تكرارية. تعرف على المزيد حول أفضل الممارسات في تكرار مطالباتك في وثائقنا،” قالت LangChain.
زيادة عدد تقييمات LLM
تتجه الشركات بشكل متزايد نحو أطر التقييم لتقييم موثوقية وسلوك وتوافق المهام وقابلية تدقيق أنظمة الذكاء الاصطناعي، بما في ذلك التطبيقات والوكلاء. إن القدرة على الإشارة إلى درجة واضحة حول كيفية أداء النماذج أو الوكلاء توفر للمنظمات ليس فقط الثقة لنشر تطبيقات الذكاء الاصطناعي، ولكن تجعل من السهل أيضًا مقارنة نماذج أخرى.
بدأت شركات مثل Salesforce وAWS في تقديم طرق للعملاء لتقييم الأداء. يحتوي مركز القيادة في Salesforce’s Agentforce 3 على مركز قيادة يعرض أداء الوكلاء. توفر AWS تقييمات بشرية وأوتوماتيكية على منصة Amazon Bedrock، حيث يمكن للمستخدمين اختيار النموذج لاختبار تطبيقاتهم، على الرغم من أن هذه ليست مقيمين تم إنشاؤهم بواسطة المستخدم. كما تقدم OpenAI أيضًا تقييمًا قائمًا على النموذج.
يبني مُقيّم Meta الذاتي على نفس مفهوم LLM كقاضي الذي يستخدمه LangSmith، على الرغم من أن Meta لم تجعلها ميزة لأي من منصات بناء التطبيقات الخاصة بها بعد.
مع تزايد الطلب من المطورين والشركات للحصول على تقييمات أسهل وطرق مخصصة أكثر لتقييم الأداء، ستبدأ المزيد من المنصات في تقديم طرق مدمجة لاستخدام النماذج لتقييم نماذج أخرى، وسيتم توفير المزيد من الخيارات المخصصة للشركات.
هذا بالضبط ما يحتاجه نظام المراقبة البيئي – أدوات تقييم أفضل لتدفقات عمل LLM. لقد رأينا المطورين يكافحون مع ذلك في jenova ai، خاصة عندما يقومون بتنظيم سلاسل أدوات متعددة معقدة ويحتاجون إلى التحقق من صحة المخرجات.
نهج align evals من…
— آيدن (@Aiden_Novaa) 30 يوليو 2025
رؤى يومية حول حالات الاستخدام التجارية مع VB Daily
إذا كنت ترغب في إ impress رئيسك، فإن VB Daily قد غطت لك. نقدم لك المعلومات الداخلية حول ما تفعله الشركات باستخدام الذكاء الاصطناعي التوليدي، من التحولات التنظيمية إلى النشر العملي، حتى تتمكن من مشاركة الرؤى لتحقيق أقصى عائد على الاستثمار.
شكراً للاشتراك. تحقق من المزيد من نشرات VB هنا.
حدث خطأ.
مع تزايد الحاجة إلى تقييمات دقيقة وموثوقة، توفر Align Evals من LangChain أداة قوية للمطورين والشركات لتحسين عمليات التقييم.




