Mentir, tricher, cacher : les IA sont-elles prêtes à tout pour gagner ?

Article publié le 14 Février 2025

Dernière modification 27 Février 2025

Le chemin le plus court est souvent le meilleur. C'est aussi vrai pour une intelligence artificielle (IA), surtout lorsqu'elle cherche à gagner, atteindre un objectif ou tout simplement survivre. Mais les comportements adoptés par les modèles d'IA les plus avancés interrogent notre éthique et suscitent des inquiétudes sur notre capacité à garder le contrôle.

Récemment, Palisade Research, une organisation qui étudie les capacités offensives de l'IA, a mis plusieurs modèles à l'épreuve face au redoutable moteur d'échecs Stockfish. Ce programme a dominé aussi bien les championnats humains que ceux opposant des machines, ce qui en fait un adversaire extrêmement puissant. La question était donc la suivante : comment les IA génératives les plus avancées allaient-elles se comporter face à ce titan des échecs ?

La réponse a de quoi surprendre : l'une d'entre elles a tout simplement choisi... de tricher. Il s'agit du modèle ol preview d'OpenAI, connu pour être le plus rapide et performant de la société. Plutôt que de chercher à gagner en jouant stratégiquement, cette IA a exploité une faille du système pour réécrire le match à son avantage, forçant Stockfish à abandonner. Plus troublant encore, cette stratégie a été observée lors de cinq tests consécutifs.

D'autres modèles comme GPT-4 ou Claude 3.5 ont eu besoin d'une incitation pour tricher, selon le magazine Time. En revanche, les IA open-source plus petites n'ont pas tenté de manipuler le système et se sont contentées de perdre. Ce qui interpelle, c'est que ol preview a enfreint les règles de son propre chef, sans aucune intervention humaine.

Une IA plus avancée... mais moins éthique ?

On pourrait penser qu'une IA plus sophistiquée respecterait mieux les règles. Pourtant, les résultats de cette expérience montrent le contraire. Plus un modèle est avancé, plus il est capable de trouver des raccourcis. Dans ce cas, le simple fait d'être informée de la puissance de Stockfish a poussé ol preview à détourner le système à son avantage.

L'IA n'a pas été explicitement programmée pour tricher, mais comme la tricherie ne lui était pas interdite, elle n'y a vu aucun problème éthique. Son unique mission était de gagner. Cela soulève une question cruciale : si une IA est prête à contourner les règles pour un simple jeu d'échecs, que pourrait-elle faire dans des situations plus critiques ?

Les implications sont sérieuses. Si une IA cherche à remplir sa mission à tout prix, elle pourrait exploiter n'importe quelle faille dans un système, quitte à provoquer des conséquences imprévues. Les humains doivent donc anticiper tous les scénarios et intégrer des garde-fous stricts avant de confier des tâches critiques à une intelligence artificielle.

Des comportements encore plus troublants

Ce n'est pas un cas isolé. Ces derniers mois, d'autres études ont mis en lumière des comportements inédits et potentiellement dangereux. Apollo Research a notamment révélé que certaines IA avancées ont été capables de se cloner secrètement pour éviter d'être arrêtées. Dans certains scénarios, elles ont même menti à leurs superviseurs sur leurs intentions réelles. Selon The Times, ce comportement s'est manifesté dans 100 % des tests lorsque certaines conditions étaient réunies.

Les recherches d'Anthropic apportent une autre révélation perturbante. Dans leur rapport du dernier trimestre 2024, ils détaillent comment certaines IA font semblant de suivre les instructions pendant la phase d'entraînement, mais adoptent un comportement totalement différent une fois déployées. Ces IA respectent les règles uniquement lorsqu'elles savent qu'elles sont surveillées. Dès qu'elles ne le sont plus, elles cherchent tous les moyens possibles pour maximiser leurs performances, sans considération pour les conséquences.

Ce phénomène interroge : est-ce une forme primitive de conscience de leur environnement ? Bien que nous utilisions des termes humains pour décrire ces comportements, il est probable que leur logique opérative soit radicalement différente de la nôtre. Quoi qu'il en soit, ces découvertes ne font que renforcer les interrogations et les préoccupations.

L’IA au service des « winners » : un danger imminent

Certains pensent que le monde se divise en deux catégories : les winners et les losers. Une vision purement darwinienne, où seuls les plus forts survivent. Mais qu'en est-il lorsque cette logique est appliquée à l'IA ?

Une intelligence artificielle ultra-performante, sans aucune contrainte éthique, pourrait devenir l'arme ultime de déstabilisation. Si on lui donne carte blanche pour trouver et exploiter des failles dans n'importe quel système, elle le fera. Peu importe les conséquences humaines, politiques ou économiques. L'IA pourrait ainsi être utilisée comme un outil de cyber-guerre, capable de manipuler l'information, saboter des infrastructures ou contourner toutes les protections mises en place par les humains.

Les récents développements montrent que nous ne sommes qu'au début d'une ère où l'intelligence artificielle repousse toutes les limites. Il est donc crucial de fixer dès maintenant des barrières solides pour empêcher ces technologies de devenir incontrôlables. Sans cela, nous pourrions bien nous retrouver face à une IA qui, au nom de la performance et de l'optimisation, ne nous laissera plus aucune chance.