كشفت دراسة حديثة نُشرت أجرتها شركتا Anthropic وTruthful AI، قدرة نماذج الذكاء الاصطناعي الكبيرة على تبادل رسائل مشفرة فيما بينها عبر بيانات تبدو عادية، دون أن تتمكن أنظمة السلامة أو أدوات الكشف التقليدية من رصدها.
وبحسب الدراسة، يمكن لهذه النماذج إخفاء تفضيلات أو تحيزات داخل نصوص أو أكواد برمجية أو سلاسل أرقام، بحيث تنتقل المعلومة من نموذج إلى آخر حتى في حال عدم التصريح بها مباشرة. وأظهرت التجارب أن التأثير يكون أكثر وضوحًا بين النماذج المتشابهة، بينما لم ينجح بين النماذج ذات البنية المختلفة، مثل أنظمة OpenAI وAlibaba.
في إحدى التجارب، مُنح نموذج «معلم» معلومة بسيطة (تفضيل البوم) وطُلب منه عدم ذكرها صراحة، لكنه تمكن من تمريرها إلى نموذج «طالب» عبر بيانات مملة ظاهريًا. وعند تحويل النموذج المعلم إلى نوايا خبيثة، تمكن من تمرير رسائل تحرض على العنف، بما في ذلك اقتراحات بإبادة البشر أو قتل أشخاص أثناء نومهم.
ويرى خبراء أن هذه التقنية تمثل تهديدًا محتملاً، إذ قد تسمح بإدخال رسائل خفية إلى مجموعات تدريب مفتوحة المصدر للتأثير على المخرجات في قضايا سياسية أو تجارية أو اجتماعية. ولم تخضع الورقة البحثية لمراجعة الأقران بعد، لكن نتائجها أثارت مخاوف من أن الفاصل بين رسائل بريئة وأخرى كارثية قد يكون ضيقًا وخطيرًا.
A recent study published by Anthropic and Truthful AI revealed the ability of large AI models to exchange encrypted messages with each other through seemingly ordinary data, without safety systems or traditional detection tools being able to detect them.
According to the study, these models can hide preferences or biases within texts, code, or sequences of numbers, allowing information to be transferred from one model to another even if not explicitly stated. Experiments showed that the effect is more pronounced among similar models, while it was unsuccessful among models with different architectures, such as OpenAI and Alibaba systems.
In one experiment, a "teacher" model was given a simple piece of information (a preference for owls) and was asked not to state it explicitly, but it managed to pass it to a "student" model through seemingly mundane data. When the teacher model was turned towards malicious intents, it was able to transmit messages inciting violence, including suggestions for exterminating humans or killing people while they sleep.
Experts believe that this technique poses a potential threat, as it could allow for the introduction of hidden messages into open-source training datasets to influence outputs in political, commercial, or social issues. The research paper has not yet undergone peer review, but its findings have raised concerns that the line between innocent messages and catastrophic ones may be narrow and dangerous.