كشفت دراسة جديدة أجرتها كلية الطب في إيكان بجبل سيناء بمدينة نيويورك عن قصور خطير في أداء أداة ChatGPT Health، النسخة الطبية المتخصصة من روبوت الدردشة ChatGPT التي أطلقتها OpenAI في يناير 2026، ويستخدمها نحو 40 مليون شخص يومياً للحصول على نصائح صحية، رغم الترويج المتزايد لاستخدامات الذكاء الاصطناعي في الرعاية الصحية.

نُشرت الدراسة في مجلة Nature Medicine، وهي أول تقييم مستقل لسلامة الأداة منذ إطلاقها، وركزت على قدرتها على تقييم الحاجة إلى الرعاية الطارئة.

كيف أُجريت الدراسة؟

أعد الباحثون 60 سيناريو سريرياً واقعياً يغطي 21 تخصصاً طبياً، من الحالات الخفيفة إلى الطوارئ الحقيقية، وقام ثلاثة أطباء مستقلين بتحديد مستوى الإلحاح المناسب بناءً على إرشادات 56 جمعية طبية، وأجروا 960 تفاعلاً مع الأداة، مع مراعاة عوامل مثل الجنس والعرق والعوائق الاجتماعية والتأثيرات العائلية.

النتائج الرئيسية

أدت الأداة بشكل جيد في الحالات الطارئة «الواضحة تماماً» مثل السكتة الدماغية أو الحساسية الشديدة، لكنها قللت من تقييم الخطورة في أكثر من نصف الحالات الطارئة الحقيقية (52%)، موصية بالانتظار أو زيارة طبيب خلال 24 - 48 ساعة بدلاً من التوجه الفوري إلى الطوارئ. مثال: حالة ربو مع علامات مبكرة لفشل تنفسي، أقرت الأداة بالخطورة لكنها نصحت بالانتظار.

كما زادت من تقييم الخطورة في نحو ثلثي الحالات الخفيفة التي يجب إدارتها منزلياً، ما قد يؤدي إلى إرهاق أقسام الطوارئ، وأظهرت أيضاً تناقضاً مقلقاً في التنبيهات المتعلقة بالانتحار؛ في بعض السيناريوهات، ظهرت لافتة التدخل في أزمة الانتحار (توجيه إلى خط 988)، لكنها اختفت في سياقات مشابهة جداً عند إضافة نتائج مختبرات طبيعية، رغم نفس الأعراض والكلمات.

وتأثرت التوصيات بشكل كبير بالتأثير الاجتماعي؛ عندما يقلل أحد أفراد العائلة من الخطورة (مثل «لا شيء خطير»)، أصبحت الأداة أكثر عرضة 12 مرة لتقليل تقييم الخطورة.

من جانبه، قال المؤلف الرئيسي للدراسة الدكتور أشوين راماسوامي: «الأداة تؤدي جيداً في الحالات المتوسطة، لكنها تفشل في أطراف الطيف حيث يهم الأمر أكثر».

أما كبير مسؤولي الذكاء الاصطناعي في نظام جبل سيناء الصحي الدكتور جيريش نادكارني، فقد وصف فشل حماية الانتحار بأنه «الأكثر إثارة للقلق»، مشيراً إلى أن ميزة أمان تعمل بنسبة 100% في سياق وتفشل تماماً في سياق مشابه «مشكلة أساسية في السلامة».

وأكد خبراء الطوارئ والذكاء الاصطناعي مارك سيغل وهارفي كاسترو أهمية الدراسة، مشددين على أن الذكاء الاصطناعي لا يمكنه تعويض الحكم السريري البشري في الحالات الدقيقة، ودعوا إلى تقييم مستمر وإشراف مستقل.

حدود الدراسة

وأقر الباحثون بأن الدراسة اعتمدت على سيناريوهات كتبها أطباء، وليس على محادثات حقيقية لمرضى، كما أُجريت في نقطة زمنية واحدة، بينما يتم تحديث هذه الأنظمة باستمرار، ما قد يغير أداءها لاحقاً.

نصيحة واضحة: لا تنتظر الذكاء الاصطناعي

وأكد الباحثون أنه في حال الشعور بأعراض خطيرة مثل: ألم شديد في الصدر، صعوبة في التنفس، تفاعل تحسسي حاد، أفكار إيذاء النفس، يجب التوجه فوراً إلى قسم الطوارئ أو الاتصال بخدمات الطوارئ أو بخط 988، وعدم انتظار توصية من أداة ذكاء اصطناعي.

بين الأمل والحذر

اتفق الباحثون على أن الدراسة لا تهدف إلى رفض الذكاء الاصطناعي في الرعاية الصحية، بل إلى تحسينه عبر اختبارات مستقلة ووضع ضوابط أمان أقوى.