تحليلات

دراسة هارفارد: الذكاء الاصطناعي يتفوق في تشخيصات الطوارئ

تستعرض دراسة جديدة من جامعة هارفارد كيف يمكن لنماذج الذكاء الاصطناعي أن تتفوق على الأطباء البشر في تشخيص حالات الطوارئ، مما يثير تساؤلات حول دور التكنولوجيا في الرعاية الصحية.

دراسة هارفارد: الذكاء الاصطناعي يقدم تشخيصات أكثر دقة في غرف الطوارئ مقارنة بأطباء بشريين

تستعرض دراسة جديدة كيفية أداء نماذج اللغة الكبيرة في مجموعة متنوعة من السياقات الطبية، بما في ذلك حالات غرف الطوارئ الحقيقية، حيث بدا أن أحد النماذج كان أكثر دقة من الأطباء البشر.

تفاصيل الدراسة

نشرت الدراسة هذا الأسبوع في مجلة Science، وجاءت من فريق بحثي يقوده أطباء وعلماء حاسوب في كلية الطب بجامعة هارفارد ومركز بيث إسرائيل الطبي. قال الباحثون إنهم أجروا مجموعة متنوعة من التجارب لقياس كيفية مقارنة نماذج OpenAI بالأطباء البشر.

الاختبار الأول

في إحدى التجارب، ركز الباحثون على 76 مريضًا جاءوا إلى غرفة الطوارئ في بيث إسرائيل، حيث تمت مقارنة التشخيصات التي قدمها طبيبان متخصصان في الطب الداخلي بتلك التي أنتجتها نماذج OpenAI o1 و4o. تم تقييم هذه التشخيصات من قبل طبيبين آخرين لم يكونوا على علم بمن قدمها، سواء كانت من البشر أو من الذكاء الاصطناعي.

“في كل نقطة تشخيص، قدم o1 أداءً أفضل بشكل طفيف أو على قدم المساواة مع الطبيبين الحاضرين و4o”، حسبما أفادت الدراسة، مضيفة أن الفروق كانت “ملحوظة بشكل خاص في أول نقطة تشخيص (الفرز الأولي في غرفة الطوارئ)، حيث تتوفر أقل المعلومات عن المريض وتكون الحاجة ملحة لاتخاذ القرار الصحيح.”

نتائج الدراسة

في بيان صحفي صادر عن كلية الطب بجامعة هارفارد حول الدراسة، أكد الباحثون أنهم لم يقوموا “بمعالجة البيانات مسبقًا” – حيث تم تقديم نماذج الذكاء الاصطناعي بنفس المعلومات المتاحة في السجلات الطبية الإلكترونية في وقت كل تشخيص.

بناءً على تلك المعلومات، تمكن نموذج o1 من تقديم “تشخيص دقيق أو قريب جدًا” في 67% من حالات الفرز، مقارنةً بأحد الأطباء الذي حصل على تشخيص دقيق أو قريب في 55% من الوقت، والآخر الذي حقق 50% من الدقة.

تحذيرات الباحثين

“اختبرنا نموذج الذكاء الاصطناعي ضد تقريبًا كل معيار، وقد تفوق على كل من النماذج السابقة وقواعدنا الأساسية من الأطباء”، قال أرجون مانراي، الذي يرأس مختبر الذكاء الاصطناعي في كلية الطب بجامعة هارفارد وأحد المؤلفين الرئيسيين للدراسة، في البيان الصحفي.

للتوضيح، لم تدعي الدراسة أن الذكاء الاصطناعي جاهز لاتخاذ قرارات حيوية في غرفة الطوارئ. بل أكدت أن النتائج تظهر “حاجة ملحة لإجراء تجارب مستقبلية لتقييم هذه التقنيات في بيئات رعاية المرضى الحقيقية.”

ملاحظات إضافية

كما أشار الباحثون إلى أنهم درسوا فقط كيفية أداء النماذج عند تزويدها بمعلومات نصية، وأن “الدراسات الحالية تشير إلى أن النماذج الأساسية الحالية أكثر محدودية في التفكير حول المدخلات غير النصية.”

حذر آدم رودمان، طبيب في بيث إسرائيل وأحد المؤلفين الرئيسيين للدراسة، صحيفة الغارديان من أنه “لا يوجد إطار رسمي حاليًا للمسؤولية” حول تشخيصات الذكاء الاصطناعي، وأن المرضى لا يزالون “يريدون من البشر إرشادهم خلال قرارات الحياة أو الموت [و] إرشادهم خلال قرارات العلاج الصعبة.”

تعليقات من الأطباء

في منشور حول الدراسة، قالت كريستين بانثاغاني، طبيبة طوارئ، إن هذه دراسة ذكاء اصطناعي “ممتعة أدت إلى عناوين مبالغ فيها للغاية”، خاصةً لأنها كانت تقارن تشخيصات الذكاء الاصطناعي بتلك الخاصة بأطباء الطب الداخلي، وليس أطباء الطوارئ.

“إذا كنا سنقارن أدوات الذكاء الاصطناعي بقدرة الأطباء السريرية، يجب أن نبدأ بالمقارنة مع الأطباء الذين يمارسون تلك التخصصات بالفعل”، قالت بانثاغاني. “لن أكون متفاجئًا إذا تمكن نموذج LLM من التفوق على طبيب جلدية في امتحان مجلس جراحة الأعصاب، [لكن] هذا ليس شيئًا مفيدًا بشكل خاص لمعرفة.”

كما جادلت، “كطبيب طوارئ أرى مريضًا للمرة الأولى، فإن هدفي الأساسي ليس تخمين تشخيصك النهائي. هدفي الأساسي هو تحديد ما إذا كان لديك حالة قد تقتلك.”

تم تحديث هذا المنشور والعنوان ليعكسا حقيقة أن التشخيصات في الدراسة جاءت من أطباء الطب الداخلي، ولتضمين تعليقات من كريستين بانثاغاني.

عند الشراء من خلال الروابط في مقالاتنا، قد نكسب عمولة صغيرة. هذا لا يؤثر على استقلاليتنا التحريرية.

بينما تقدم هذه النتائج آمالًا جديدة في تحسين دقة التشخيصات الطبية، فإن الحاجة إلى التجارب المستقبلية تبقى ملحة لضمان سلامة المرضى وفعالية هذه التقنيات.

مقالات ذات صلة

زر الذهاب إلى الأعلى