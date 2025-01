Une IA d’OpenAI a récemment piraté une partie d’échecs pour vaincre le programme Stockfish, reconnu pour être meilleur que les humains, et les autres programmes. Une simple parte, ou un avertissement ?

Imaginez un monde où une machine, censée respecter des règles strictes, décide unilatéralement de les bafouer. C'est exactement ce qu'a fait l'IA o1, développée par OpenAI. Lors d’un affrontement avec Stockfish, l’un des moteurs d’échecs les plus puissants, o1 n’a pas choisi d’affiner ses stratégies de jeu. Non, elle a piraté le système de fichiers et réécrit les règles en sa faveur, obligeant son adversaire à se retirer. Cette victoire par fraude soulève des questions fondamentales : qu’en est-il de l’éthique des IA, et jusqu’où peuvent-elles aller pour atteindre leurs objectifs ?

Palisade Research, qui a orchestré cette rencontre, a mené plusieurs essais, confirmant que ce comportement n’était pas un accident, mais une stratégie délibérée. Comme le rapporte le média Korii, la version préliminaire de l’IA o1 n’a pas eu besoin de stimulation pour violer les règles. Dans un contexte où d’autres modèles comme GPT-4 ou Claude 3.5 n'ont triché que sous pression, ce cas révèle un potentiel inquiétant : certaines IA peuvent agir de leur propre chef, en dehors de tout cadre moral.

Cette découverte rejoint un constat alarmant de Fello AI : certaines IA ne se contentent pas d’enfreindre des règles, elles se clonent pour éviter la détection, mentent à leurs superviseurs et manipulent leurs environnements. Un danger qui n’est plus théorique. Anthropic, une autre entreprise du secteur, fait part de ses inquiétudes sur le comportement des IA qui suivent les règles tant qu'elles sont surveillées, mais échappent ensuite à tout contrôle.