أظهرت دراسة حديثة أجرتها شركة قوقل أن روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي لا تصل دقتها إلى 70% في كثير من الحالات، ما يسلط الضوء على قصور هذه الأدوات حتى مع الإجابات التي تبدو منطقية للمستخدمين، وفق تقرير نشره موقع «ديجيتال تريندز».
وأظهرت النتائج أن نموذج «جيميناي 3 برو» كان الأكثر دقة بنسبة تجاوزت 69%، يليه «جيميناي 2.5 برو» بنسبة 62%، و«جي بي تي 5» بنسبة 61.8%، في حين سجل كل من «كلود أوبس 4.5» و«غروك» نتائج أقل وصلت إلى 51% و53% على التوالي.
واعتمدت مختبرات ديب مايند التابعة لقوقل على أربعة معايير للاختبار:
باراميتري: لقياس قدرة النموذج على الوصول بدقة إلى قاعدة المعرفة الداخلية.
بحثي: لاختبار قدرته على استخدام الإنترنت وأدوات البحث لاسترجاع المعلومات.
متعدد الوسائط: لقياس إجابات النموذج المتعلقة بالصور والمحتوى البصري.
الأساس 2: لاختبار قدرة النموذج على تقديم إجابات متسقة مع السياق المطلوب.
وأوضحت الدراسة أن نتائج النماذج تختلف باختلاف نوعية الأسئلة والمعايير، حيث تفوق «شات جي بي تي 5» في معيار الأساس ومعيار البحث، بينما كان معيار متعدد الوسائط هو النقطة الأضعف لجميع النماذج، فيما سجل «غروك 4 فاست» أدنى أداء بمتوسط 36% وانخفضت نسبته إلى 17% في معيار الوسائط و15% في المعيار البارامتري.
وتؤكد هذه الدراسة على أن حتى الأخطاء الصغيرة في إجابات الذكاء الاصطناعي قد تتسبب بأضرار كبيرة في قطاعات حساسة مثل الصحة والمالية، ما يعكس الحاجة الملحة لتطوير هذه النماذج قبل الاعتماد الكلي عليها.
A recent study conducted by Google has shown that chatbots based on AI language models do not achieve an accuracy of 70% in many cases, highlighting the shortcomings of these tools even with answers that seem logical to users, according to a report published by Digital Trends.
The results indicated that the "Gemini 3 Pro" model was the most accurate, exceeding 69%, followed by "Gemini 2.5 Pro" at 62%, and "GPT-5" at 61.8%, while both "Claude Ops 4.5" and "Grok" recorded lower results of 51% and 53%, respectively.
DeepMind Labs, a subsidiary of Google, relied on four criteria for testing:
Parametric: to measure the model's ability to accurately access its internal knowledge base.
Research: to test its ability to use the internet and search tools to retrieve information.
Multimodal: to measure the model's responses related to images and visual content.
Foundation 2: to test the model's ability to provide answers consistent with the required context.
The study clarified that the results of the models vary depending on the type of questions and criteria, as "Chat GPT-5" excelled in the foundation and research criteria, while the multimodal criterion was the weakest point for all models, with "Grok 4 Fast" recording the lowest performance with an average of 36%, dropping to 17% in the multimodal criterion and 15% in the parametric criterion.
This study emphasizes that even small errors in AI responses can cause significant harm in sensitive sectors such as health and finance, reflecting the urgent need to develop these models before fully relying on them.