إعادة تقييم معايير الذكاء الاصطناعي: الحاجة إلى نهج جديد

في عالم يتزايد فيه الاعتماد على الذكاء الاصطناعي، من الضروري إعادة تقييم كيفية قياس فعاليته. المقالة التالية تسلط الضوء على ضرورة تغيير معايير تقييم الذكاء الاصطناعي.
معايير الذكاء الاصطناعي معطلة. إليكم ما نحتاجه بدلاً من ذلك.
عبر المنظمات التي ظهرت فيها هذه المقاربة وبدأت في تطبيقها، كانت الخطوة الأولى هي تغيير وحدة التحليل.
على سبيل المثال، في نظام مستشفيات في المملكة المتحدة خلال الفترة 2021-2024، توسع السؤال من ما إذا كانت تطبيقات الذكاء الاصطناعي الطبية تحسن دقة التشخيص إلى كيفية تأثير وجود الذكاء الاصطناعي ضمن فرق المستشفى متعددة التخصصات على ليس فقط الدقة ولكن أيضًا التنسيق والتداول. قامت المستشفى بتقييم التنسيق والتداول في الفرق البشرية التي تستخدم الذكاء الاصطناعي وتلك التي لا تستخدمه. قرر العديد من أصحاب المصلحة (داخل وخارج المستشفى) مقاييس مثل كيفية تأثير الذكاء الاصطناعي على التفكير الجماعي، وما إذا كان يكشف عن اعتبارات تم تجاهلها، وما إذا كان يقوي أو يضعف التنسيق، وما إذا كان يغير الممارسات المعمول بها في المخاطر والامتثال.
هذا التحول أساسي. إنه مهم جدًا في السياقات ذات المخاطر العالية حيث تؤثر الآثار على مستوى النظام أكثر من دقة المهام. كما أنه مهم للاقتصاد. قد يساعد في إعادة ضبط التوقعات المبالغ فيها بشأن مكاسب الإنتاجية الشاملة التي تعتمد حتى الآن بشكل كبير على وعد تحسين أداء المهام الفردية.
بمجرد أن يتم وضع هذا الأساس، يمكن أن يبدأ تقييم معايير الذكاء الاصطناعي البشرية (HAIC) في أخذ عنصر الزمن بعين الاعتبار.
تشبه معايير اليوم امتحانات المدرسة – اختبارات قياسية لمرة واحدة لقياس الدقة. لكن الكفاءة المهنية الحقيقية تُقيم بشكل مختلف. يتم تقييم الأطباء والمحامين المبتدئين باستمرار داخل سير العمل الحقيقي، تحت إشراف، مع حلقات تغذية راجعة وهياكل للمسؤولية. يتم الحكم على الأداء على مر الزمن وفي سياق محدد، لأن الكفاءة هي علاقة. إذا كانت أنظمة الذكاء الاصطناعي مصممة للعمل جنبًا إلى جنب مع المحترفين، فيجب الحكم على تأثيرها على المدى الطويل، مما يعكس كيف يتطور الأداء عبر تفاعلات متكررة.
لقد رأيت هذا الجانب من HAIC مطبقًا في إحدى دراساتي في القطاع الإنساني. على مدار 18 شهرًا، تم تقييم نظام الذكاء الاصطناعي ضمن سير العمل الحقيقي، مع اهتمام خاص بكيفية قابلية اكتشاف أخطائه – أي مدى سهولة تحديد الفرق البشرية لها وتصحيحها. كانت هذه “السجل الطويل لاكتشاف الأخطاء” يعني أن المنظمات المعنية يمكنها تصميم واختبار حواجز سياقية لتعزيز الثقة في النظام، على الرغم من حتمية حدوث أخطاء من الذكاء الاصطناعي بين الحين والآخر.
كما أن أفق الزمن الأطول يجعل الآثار على مستوى النظام مرئية، والتي تفوتها المعايير قصيرة الأجل. قد يتفوق تطبيق الذكاء الاصطناعي على طبيب واحد في مهمة تشخيصية ضيقة ولكنه يفشل في تحسين اتخاذ القرارات متعددة التخصصات. والأسوأ من ذلك، أنه قد يقدم تشويهات نظامية: تثبيت الفرق في إجابات محتملة ولكن غير مكتملة في وقت مبكر، مما يزيد من أعباء التفكير لدى الأشخاص، أو توليد عدم الكفاءة في المراحل التالية التي تعوض عن أي مكاسب في السرعة أو الكفاءة في نقطة استخدام الذكاء الاصطناعي. هذه التأثيرات المتتالية – التي غالبًا ما تكون غير مرئية للمعايير الحالية – هي مركزية لفهم التأثير الحقيقي.
تعد مقاربة HAIC، بلا شك، أكثر تعقيدًا، وتتطلب موارد أكبر، وأصعب في التوحيد. لكن الاستمرار في تقييم الذكاء الاصطناعي في ظروف معقمة بعيدة عن عالم العمل سيتركنا نفهم بشكل خاطئ ما يمكنه وما لا يمكنه فعله حقًا من أجلنا. لنشر الذكاء الاصطناعي بشكل مسؤول في البيئات الحقيقية، يجب علينا قياس ما هو مهم حقًا: ليس فقط ما يمكن أن يفعله النموذج بمفرده، ولكن ما يمكّنه – أو يقوضه – عندما يعمل البشر والفرق في العالم الحقيقي معه.
أنجيلا أريستيدو هي أستاذة في جامعة كوليدج لندن وزميلة في مختبر الاقتصاد الرقمي بجامعة ستانفورد ومعهد الذكاء الاصطناعي المتمركز حول الإنسان بجامعة ستانفورد. تتحدث وتكتب وتقدم المشورة حول نشر أدوات الذكاء الاصطناعي في الحياة الواقعية من أجل الصالح العام.
في النهاية، يتطلب نشر الذكاء الاصطناعي بشكل مسؤول فهمًا عميقًا لتأثيره على العمل الجماعي والقرارات متعددة التخصصات. يجب أن نكون مستعدين لتبني معايير جديدة تعكس هذه التعقيدات.




