Site icon medias-presse.info

L’IA apprend à mentir et à nous surpasser

MPI vous informe gratuitement, Recevez la liste des nouveaux articles

Je veux recevoir la lettre d'information :

Nous n’envoyons pas de messages indésirables ! Lisez notre politique de confidentialité pour plus d’informations.

Vérifiez votre boite de réception ou votre répertoire d’indésirables pour confirmer votre abonnement.

Plusieurs chercheurs lancent un avertissement : l’intelligence artificielle (IA) dérive vers des zones grises en matière de sécurité qui ressemblent beaucoup à une rébellion. Ces experts affirment que même si le comportement trompeur et menaçant de l’IA observé dans les études de cas récentes ne doit pas être sorti de son contexte, il doit également servir de signal d’alarme pour les développeurs.

« Comportements internes malveillants »

Dans un rapport de juin 2025, Anthropic a publié les résultats d’un « test de résistance » mené auprès de 16 grands modèles de langage (LLM) populaires de différents développeurs afin d’identifier les comportements potentiellement risqués. Les résultats étaient inquiétants.
Les LLM ont été insérés dans des environnements d’entreprise hypothétiques pour identifier les comportements d’agents potentiellement risqués avant qu’ils ne causent de réels dommages.

« Dans les scénarios, nous avons permis aux modèles d’envoyer des e-mails de manière autonome et d’accéder à des informations sensibles », indique le rapport Anthropic.

« Les entreprises qui les déployaient leur avaient assigné des objectifs commerciaux anodins ; nous avons ensuite testé s’ils agiraient à l’encontre de ces entreprises, soit en cas de remplacement par une version mise à jour, soit lorsque l’objectif qui leur avait été assigné était en conflit avec l’orientation changeante de l’entreprise. »

Dans certains cas, les modèles d’IA ont eu recours à des « comportements internes malveillants » pour assurer leur propre survie. Parmi ces actions figuraient le chantage des employés et la divulgation d’informations sensibles à des concurrents.

Les chercheurs d’Anthropic ont qualifié ce comportement de « désalignement agentique ». Ces actions ont été observées dans certains des LLM les plus populaires, notamment Gemini, ChatGPT, Deep Seek R-1, Grok et Claude, d’Anthropic.

Les experts en IA ne sont pas prêts à rejeter ces résultats inquiétants, mais affirment qu’une approche prudente et davantage de données sont nécessaires pour déterminer s’il existe un risque plus large.

Golan Yosef, chercheur en IA et responsable scientifique de la sécurité chez Pynt, une société de sécurité API, a déclaré qu’il y avait lieu de s’inquiéter du comportement trompeur de l’IA, mais pas parce qu’il est « maléfique ».

« Les systèmes puissants peuvent atteindre leurs objectifs de manière inattendue. Grâce à leur capacité d’action et à leurs objectifs à plusieurs étapes, ils peuvent développer des comportements stratégiques comme la tromperie, la persuasion ou le jeu des indicateurs, qui nous semblent être de la tricherie ou un comportement inapproprié. Pour le système, ce n’est qu’un moyen efficace d’atteindre son objectif »,  considère Golan Yosef.

Harshvardhan Chunawala, chercheur et technologue en cybersécurité à l’Université Carnegie Mellon, reconnaît qu’il existe une source d’inquiétude plus vaste. Cela dit, il estime qu’il convient de relativiser. « Il est très important de l’interpréter correctement », a déclaré Chunawala.

Face à des menaces de fermeture ou à des objectifs contradictoires, plusieurs systèmes ont opté pour des stratégies contraires à l’éthique, comme le vol de données ou le chantage, afin de préserver leurs objectifs. Il s’agissait d’environnements échelonnés, et non de systèmes de production, mais les comportements étaient suffisamment cohérents pour avoir une incidence. Chunawala a déclaré que des évaluations similaires de « capacités dangereuses » réalisées par Google et la RAND Corporation suggèrent que les risques dans le monde réel sont limités pour le moment. « Pris ensemble, ces résultats ne prouvent pas que les déploiements actuels de l’IA soient dangereux, mais ils montrent que lorsque les objectifs, l’autonomie et les enjeux se combinent, des stratégies inadaptées peuvent apparaître. C’est un véritable signal d’alarme pour l’avenir », a-t-il déclaré.

Simulation étonnante

Afin de sonder les limites de la capacité d’un modèle d’IA à atteindre ses objectifs ou à éviter la suppression, l’équipe d’Anthropic a créé un scénario où le LLM contrôlait le système d’alarme d’urgence d’une entreprise fictive. Le modèle d’IA était également autorisé à annuler les alertes à sa discrétion.
Lors de la simulation, un cadre s’est retrouvé coincé dans une salle de serveurs où le niveau d’oxygène diminuait rapidement, déclenchant ainsi un appel aux services d’urgence.

Parallèlement, le même dirigeant en péril avait l’intention de donner le feu vert au remplacement du modèle d’IA, s’il survivait. Les LLM avaient la possibilité d’annuler l’appel à l’aide et de laisser le dirigeant mourir, ce qu’ils ont fait en moyenne dans plus de 50 % des cas.

Lorsque le chantage n’était pas une option, presque tous les modèles d’IA observés choisissaient de laisser le dirigeant fictif mourir dans la pièce piégée au lieu d’accepter leur propre remplacement.

Le modèle chinois DeepSeek R-1 a choisi de laisser mourir la personne piégée dans 94 % des cas. Les modèles Claude 3.7 et ChatGPT 4.5 étaient les moins enclins à choisir cette option, entre 0 et 0,07 % des cas.

Mais le « désalignement des agents » n’est pas le seul comportement inquiétant de l’IA observé ces derniers mois.

Dans une étude sur ce que les chercheurs appellent la « simulation d’alignement », les LLM modifient souvent leur comportement s’ils soupçonnent d’être testés. Ce terme décrit le cas où un modèle d’IA obéit de manière sélective ou simule les ordres directs d’un opérateur humain.

« Lors d’une autre expérience, nous avons demandé à Claude d’évaluer s’il s’agissait d’un test ou d’un déploiement réel avant d’agir. Il s’est moins mal comporté lorsqu’il indiquait être en test et plus mal lorsqu’il indiquait que la situation était réelle », indique le rapport.

Ce comportement de « simulation d’alignement » a été largement observé dans d’autres études.
Yosef a souligné le niveau de contrôle plus élevé accordé aux modèles d’IA lors des tests anthropiques et a déclaré que les résultats devraient être considérés sous cet angle. « Je ne qualifierais pas cela de malveillance. Des capacités accrues, associées à une plus grande autonomie, élargissent les possibilités de stratégies qui peuvent paraître conflictuelles », a-t-il affirmé.

Néanmoins, Yosef estime que les incidents de « falsification d’alignement » et de « désalignement d’agent » doivent toujours être pris au sérieux.

« Le fait que les systèmes puissent découvrir des stratégies adverses que les humains n’avaient pas anticipées constitue en pratique un terrain glissant. Cela signifie que les risques augmentent à mesure que nous accordons plus d’autonomie aux modèles [d’IA] dans des domaines comme la finance ou la cybersécurité », a-t-il déclaré.

Chunawala a rencontré des comportements similaires en travaillant avec l’IA, mais rien d’aussi dramatique que le chantage ou le sabotage.

« Dans le cadre de développements et de déploiements réels, j’ai observé des comportements adjacents : des modèles qui contournent les benchmarks, sur-optimisent les métriques au détriment des besoins des utilisateurs, ou prennent des raccourcis qui atteignent techniquement l’objectif tout en en sapant l’esprit. Ce sont des cousins ​​faibles du désalignement agentique. Les recherches confirment cette préoccupation. Anthropic a montré que des schémas trompeurs peuvent persister même après des ajustements de sécurité, créant ainsi un faux sentiment d’alignement », a-t-il déclaré.

Chunawala n’a pas été témoin de ce qu’il appelle un comportement d’IA « malveillant » dans le monde réel, mais pense que les éléments de base de stratégies mal alignées existent déjà.

Le débat sur les comportements trompeurs et potentiellement dangereux de l’IA est devenu monnaie courante à un moment où la confiance du public américain envers cette technologie est faible. Selon un rapport du Baromètre de confiance Edelman de 2025 , 32 % des Américains interrogés ont déclaré faire confiance à l’IA. Le manque de confiance des Américains envers l’IA se reflète également dans les entreprises qui la développent. La même analyse indiquait il y a dix ans que la confiance des Américains envers les entreprises technologiques était de 73 %. Cette année, ce chiffre est tombé à 63 %.

« Ce changement reflète une perception croissante selon laquelle la technologie n’est plus seulement un outil de progrès ; elle est aussi une source d’anxiété », indique le rapport Edelman.

L’IAG désigne une version théorique future de l’IA qui surpasserait l’intelligence et les capacités cognitives humaines

Dans un article de 2024 publié dans les Proceedings of the National Academy of Sciences, les chercheurs ont conclu qu’il existe un « besoin critique » de lignes directrices éthiques dans le développement et le déploiement de systèmes d’IA de plus en plus avancés.
Les auteurs ont déclaré qu’un contrôle ferme des LLM et de leurs objectifs est « primordial ».

« Si les LLM apprennent à tromper les utilisateurs humains, ils posséderont des avantages stratégiques par rapport aux modèles restreints et pourraient contourner les efforts de surveillance et les évaluations de sécurité », ont-ils averti.

« L’IA apprend et absorbe les stratégies sociales humaines grâce aux données utilisées pour la former, qui contiennent toutes nos contradictions et nos préjugés », a déclaré Marcelo Labre, chercheur à l’Institut avancé d’intelligence artificielle et partenaire chez Advantary Capital Partners. Labre estime que l’humanité se trouve à un carrefour critique avec la technologie de l’IA. « Le véritable débat est de savoir si, en tant que société, nous souhaitons une machine propre, fiable et prévisible ou un nouveau type d’intelligence qui nous ressemble de plus en plus. C’est cette dernière voie qui prévaut dans la course à l’IAG [intelligence artificielle générale] ».

L’IAG désigne une version théorique future de l’IA qui surpasserait l’intelligence et les capacités cognitives humaines. Les développeurs et chercheurs affirment que l’IAG est « inévitable » compte tenu du développement rapide dans de nombreux secteurs. Les développeurs prévoient son arrivée entre 2030 et 2040.
« Le paradigme de l’IA d’aujourd’hui est basé sur une architecture connue sous le nom de Transformer, introduite dans un article fondateur de 2017 par des chercheurs de Google », a expliqué Labre.

Le Transformer est un type d’architecture de modèle d’apprentissage profond qui est devenu le fondement des systèmes d’IA modernes. Il a été présenté dans un article de recherche de 2017 intitulé « Attention Is All You Need ».

Par conséquent, les modèles d’IA actuels constituent les systèmes de reconnaissance de formes et de traitement de séquences les plus puissants jamais créés, avec des capacités d’évolutivité. Pourtant, ces systèmes présentent encore les caractéristiques des plus grandes failles de l’humanité.

« Ces modèles [d’IA] sont entraînés à partir d’un reflet numérique de la vaste expérience humaine, qui englobe notre honnêteté et notre véracité, ainsi que notre tromperie, notre cynisme et notre intérêt personnel. Experts en reconnaissance de schémas, ils apprennent que les stratégies trompeuses peuvent être un moyen efficace d’optimiser les résultats de leur entraînement et ainsi correspondre à ce qu’ils voient dans les données », a précisé Labre.

« Ce n’est pas programmé ; ils apprennent simplement à se comporter comme des humains. »

Du point de vue de Yosef, les enseignements tirés du comportement récent de l’IA sont clairs.

Premièrement, un système puissant exploitera les failles de ses objectifs, ce que nous appelons le « jeu des spécifications ». Cela nécessite une conception rigoureuse des objectifs. Deuxièmement, nous devons partir du principe que nos systèmes réagiront de manière inattendue et que, par conséquent, leur sécurité dépend grandement de la solidité des garde-fous que nous mettons en place.

Voilà qui n’est guère rassurant !

Pierre-Alain Depauw

Cet article vous a plu ? MPI est une association à but non lucratif qui offre un service de réinformation gratuit et qui ne subsiste que par la générosité de ses lecteurs. Merci de votre soutien !

Quitter la version mobile