La tragédie de l’ancien chercheur d’OpenAI Suchir Balaji remet « Death by LLM » sous les projecteurs

La tragédie de l'ancien chercheur d'OpenAI Suchir Balaji remet « Death by LLM » sous les projecteurs

Le décès récent de Suchir Balaji, ancien chercheur d’OpenAI, a remis sur le devant de la scène un débat peu discuté sur l’IA.

Les modèles d’IA sont formés à partir d’informations provenant d’Internet. Ces outils répondent directement aux questions des utilisateurs, de sorte que moins de personnes visitent les sites Web qui ont créé et vérifié les données originales. Cela draine les ressources des créateurs de contenu, ce qui pourrait conduire à un Internet moins précis et moins riche.

Elon Musk appelle cela « Mort par LLM ». Stack Overflow, un site Web de questions-réponses sur le codage, a déjà été endommagé par ce phénomène. Et Balaji était préoccupé par cela.

Balaji a été retrouvé mort fin novembre. La police de San Francisco a déclaré n’avoir trouvé « aucune preuve d’acte criminel » lors de l’enquête initiale. Le médecin légiste en chef de la ville a déterminé qu’il s’agissait d’un suicide.

Les inquiétudes de Balaji

Environ un mois avant la mort de Balaji, il a publié un essai sur son site Web personnel expliquant comment les modèles d’IA sont créés et comment cela peut être mauvais pour Internet.

Il a cité recherche qui a étudié l’impact des modèles d’IA utilisant gratuitement des données en ligne pour répondre directement aux questions tout en éloignant le trafic des sources d’origine.

L’étude a analysé Stack Overflow et a révélé que le trafic vers ce site a diminué d’environ 12 % après la sortie de ChatGPT. Au lieu d’aller sur Stack Overflow pour poser des questions de codage et faire des recherches, certains développeurs demandaient simplement les réponses à ChatGPT.

Autres résultats de la recherche cités par Balaji :

  • Il y a eu une baisse du nombre de questions publiées sur Stack Overflow après la sortie de ChatGPT.
  • L’âge moyen des personnes qui posent des questions a augmenté après la sortie de ChatGPT, ce qui suggère que moins de personnes se sont inscrites à Stack Overflow ou que davantage d’utilisateurs ont quitté la communauté en ligne.

Cela suggère que les modèles d’IA pourraient saper certaines des incitations qui ont créé l’Internet riche en informations tel que nous le connaissons aujourd’hui.

Si les gens peuvent obtenir leurs réponses directement à partir des modèles d’IA, il n’est pas nécessaire de recourir aux sources originales de l’information. Si les gens visitent moins les sites Web, les revenus de la publicité et des abonnements pourraient chuter, et il y aurait moins d’argent pour financer la création et la vérification de données en ligne de haute qualité.

MKBHD veut se retirer

Il est encore plus exaspérant d’imaginer que des modèles d’IA puissent faire cela en se basant en partie sur votre propre travail.

Le critique technique Marques Brownlee en a fait l’expérience récemment lorsqu’il a examiné le modèle vidéo Sora d’OpenAI et a découvert qu’il créait un clip avec une plante qui ressemblait beaucoup à une plante à partir de ses propres vidéos publiées sur YouTube.

« Mes vidéos font-elles partie de ce matériel source ? Cette plante exacte fait-elle partie du matériel source ? Est-ce juste une coïncidence ? » a déclaré Brownlee, connu sous le nom de MKBHD.

Naturellement, il voulait également savoir s’il pouvait se désinscrire et empêcher que ses vidéos soient utilisées pour entraîner des modèles d’IA. « Nous ne savons pas s’il est trop tard pour nous retirer », a déclaré Brownlee.

« Pas un modèle durable »

Dans une interview accordée au New York Times publiée en octobre, Balaji a déclaré que les chatbots IA comme ChatGPT suppriment la valeur commerciale du travail et des services des gens.

La publication rapporte que tout en travaillant chez OpenAI, Balaji faisait partie d’une équipe qui collectait des données sur Internet pour la formation de modèles d’IA. Il a rejoint la startup avec de grands espoirs quant à la façon dont l’IA pourrait aider la société, mais il a été désillusionné, a écrit le New York Times.

« Ce n’est pas un modèle durable pour l’écosystème Internet », a-t-il déclaré à la publication.

Dans une déclaration au Times concernant les commentaires de Balaji, OpenAI a déclaré que la manière dont elle construit des modèles d’IA est protégée par les principes du droit d’auteur d’utilisation équitable et soutenue par des précédents juridiques. « Nous considérons ce principe comme équitable pour les créateurs, nécessaire pour les innovateurs et essentiel pour la compétitivité des États-Unis », ajoute-t-il.

Dans son essai, Balaji n’était pas d’accord.

L’un des quatre tests de violation du droit d’auteur consiste à déterminer si une nouvelle œuvre a un impact sur le marché potentiel ou sur la valeur de l’œuvre originale protégée par le droit d’auteur. S’il provoque ce type de dommage, il ne s’agit pas d’un « usage équitable » et n’est pas autorisé.

Balaji a conclu que ChatGPT et d’autres modèles d’IA ne sont pas conformes à la protection des droits d’auteur pour une utilisation équitable.

« Aucun des quatre facteurs ne semble peser en faveur d’une utilisation équitable de ChatGPT de ses données de formation », a-t-il écrit. « Cela étant dit, aucun des arguments présentés ici n’est fondamentalement spécifique à ChatGPT, et des arguments similaires pourraient être avancés pour de nombreux produits d’IA générative dans une grande variété de domaines. »

Parler de données

Les entreprises technologiques produisant ces puissants modèles d’IA n’aiment pas parler de la valeur des données d’entraînement. Ils ont même cessé de divulguer d’où ils obtiennent les données, ce qui était une pratique courante jusqu’il y a quelques années.

« Ils mettent toujours en avant leurs algorithmes intelligents, et non les données sous-jacentes », a déclaré Nick Vincent, chercheur en IA, à BI l’année dernière.

La mort de Balaji pourrait enfin donner à ce débat l’attention qu’il mérite.

« Nous sommes dévastés d’apprendre aujourd’hui cette incroyablement triste nouvelle et nos pensées vont aux proches de Suchir pendant cette période difficile », a récemment déclaré un porte-parole d’OpenAI à BI.

Si vous ou quelqu’un que vous connaissez souffrez de dépression ou si vous avez pensé à vous faire du mal ou à vous suicider, demandez de l’aide. Aux États-Unis, appelez ou envoyez un SMS au 988 pour joindre la bouée de sauvetage en cas de suicide et de crisequi propose un accompagnement gratuit et confidentiel 24h/24 et 7j/7 aux personnes en détresse, ainsi que des bonnes pratiques pour les professionnels et des ressources pour aider à la prévention et aux situations de crise. L’aide est également disponible via le Ligne de texte de crise — envoyez simplement « HOME » au 741741. Le Association internationale pour la prévention du suicide offre des ressources pour ceux en dehors des États-Unis.

A lire également