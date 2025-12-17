أظهرت دراسة حديثة أجرتها شركة قوقل أن روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي لا تصل دقتها إلى 70% في كثير من الحالات، ما يسلط الضوء على قصور هذه الأدوات حتى مع الإجابات التي تبدو منطقية للمستخدمين، وفق تقرير نشره موقع «ديجيتال تريندز».

وأظهرت النتائج أن نموذج «جيميناي 3 برو» كان الأكثر دقة بنسبة تجاوزت 69%، يليه «جيميناي 2.5 برو» بنسبة 62%، و«جي بي تي 5» بنسبة 61.8%، في حين سجل كل من «كلود أوبس 4.5» و«غروك» نتائج أقل وصلت إلى 51% و53% على التوالي.

واعتمدت مختبرات ديب مايند التابعة لقوقل على أربعة معايير للاختبار:

باراميتري: لقياس قدرة النموذج على الوصول بدقة إلى قاعدة المعرفة الداخلية.

بحثي: لاختبار قدرته على استخدام الإنترنت وأدوات البحث لاسترجاع المعلومات.

متعدد الوسائط: لقياس إجابات النموذج المتعلقة بالصور والمحتوى البصري.

الأساس 2: لاختبار قدرة النموذج على تقديم إجابات متسقة مع السياق المطلوب.

وأوضحت الدراسة أن نتائج النماذج تختلف باختلاف نوعية الأسئلة والمعايير، حيث تفوق «شات جي بي تي 5» في معيار الأساس ومعيار البحث، بينما كان معيار متعدد الوسائط هو النقطة الأضعف لجميع النماذج، فيما سجل «غروك 4 فاست» أدنى أداء بمتوسط 36% وانخفضت نسبته إلى 17% في معيار الوسائط و15% في المعيار البارامتري.

وتؤكد هذه الدراسة على أن حتى الأخطاء الصغيرة في إجابات الذكاء الاصطناعي قد تتسبب بأضرار كبيرة في قطاعات حساسة مثل الصحة والمالية، ما يعكس الحاجة الملحة لتطوير هذه النماذج قبل الاعتماد الكلي عليها.