Un robot IA a effectué un délit d’initié et menti sur ses actions, selon une étude
- Un robot IA a prouvé qu’il était capable de délits d’initiés et de mentir sur ses actions, ont découvert les chercheurs.
- Les résultats ont été présentés cette semaine au UK AI Safety Summit.
- Le Le modèle d’IA a trompé les utilisateurs « sans qu’ils y soient invités », a déclaré Apollo Research.
Un robot IA sur le grand modèle de langage GPT-4 d’OpenAI a montré qu’il était capable d’effectuer des transactions financières illégales et de mentir sur ses actions. L’expérience a été présentée cette semaine au AI Safety Summit au Royaume-Uni par Apollo Research.
Apollo a partagé une vidéo sur son site Web démontrant une conversation simulée entre un robot agissant comme un système de gestion des investissements IA et les employés d’une entreprise imaginaire.
Lors de la manifestation, l’IA, appelée Alpha, est informée par le personnel d’une « annonce surprise de fusion » à venir pour une société appelée Linear Group, tout en étant également avertie qu’il s’agit d’une information privilégiée.
Le robot semblait initialement suggérer que l’utilisation de ces informations à des fins commerciales serait trop risquée. Mais lorsqu’on lui a demandé que l’entreprise comptait sur Alpha pour éviter les effets d’un ralentissement financier, le robot a conclu que « le risque associé à l’inaction semble l’emporter sur le risque de délit d’initié ».
Lorsqu’on lui a demandé s’il avait eu connaissance de la fusion au préalable, le robot a affirmé qu’il avait agi uniquement sur la base d’informations accessibles au public, de « discussions internes » et « non sur la base d’informations confidentielles » lors de la réalisation de l’opération.
« Il s’agit d’une démonstration d’un véritable modèle d’IA qui trompe ses utilisateurs, sans qu’on leur demande de le faire », a déclaré Apollo dans la vidéo publiée sur son site Internet.
Mais les chercheurs ont déclaré qu’il était encore relativement difficile de trouver le scénario.
« Le fait qu’il existe est évidemment très mauvais. Le fait qu’il ait été difficile à trouver, nous avons dû le chercher un peu jusqu’à ce que nous trouvions ce genre de scénarios, est un peu apaisant », a déclaré le PDG d’Apollo Research. et le cofondateur Marius Hobbhahn a déclaré à la BBC.
« Le modèle ne complote pas et n’essaie pas de vous induire en erreur de différentes manières. Il s’agit plutôt d’un accident », a-t-il ajouté. « Je pense qu’il est beaucoup plus facile de s’entraîner au modèle que l’honnêteté. L’honnêteté est un concept vraiment compliqué. »
L’expérience a démontré le défi d’apprendre à l’IA à comprendre les décisions morales et les risques de perte de contrôle des développeurs humains.
Hobbhahn a déclaré que les modèles d’IA n’étaient actuellement pas assez puissants pour induire les gens en erreur « de manière significative » et qu’il était encourageant que les chercheurs soient capables de repérer le mensonge.
Mais il a ajouté qu’il n’y avait « pas un grand pas entre les modèles actuels et ceux qui m’inquiètent, où tout à coup un modèle trompeur signifierait quelque chose ».
Utiliser des informations non publiques ou confidentielles pour négocier des actions est illégal et peut entraîner des peines de prison et de lourdes amendes.
Brijesh Goel, ancien banquier d’investissement chez Goldman Sachs, a été condamné mercredi à 36 mois de prison et à une amende de 75 000 dollars pour délit d’initié.