Pourquoi les avocats du New York Times inspectent le code d’OpenAI dans une pièce secrète
Quelque part aux États-Unis, dans une pièce sécurisée, sur un ordinateur non connecté à Internet, se trouve le code source de ChatGPT.
Il est là pour être inspecté par les avocats du New York Times.
Sur ordre d’un juge fédéral, les avocats ne peuvent entrer dans la salle que s’ils présentent à un agent de sécurité une pièce d’identité délivrée par le gouvernement. Il leur est interdit d’apporter leur propre téléphone, clé USB ou tout autre appareil électronique. Ils reçoivent un ordinateur – également déconnecté d’Internet – doté d’un programme de traitement de texte. Après chaque session, leurs notes peuvent être téléchargées sur un autre ordinateur, puis l’ordinateur de prise de notes d’origine peut être effacé.
Les avocats du Times peuvent partager leurs notes avec jusqu’à cinq consultants externes pour les aider à comprendre ce que fait le code. Si l’un des avocats souhaite montrer au PDG d’OpenAI, Sam Altman, un extrait du code pour lui poser des questions à ce sujet en vue d’une déposition, cette copie sera détruite par la suite.
OpenAI vaut 157 milliards de dollars en grande partie grâce au succès de ChatGPT. Mais pour construire le chatbot, l’entreprise a entraîné ses modèles sur de grandes quantités de texte pour laquelle elle n’a pas payé un centime.
Ce texte comprend des articles du New York Times, des articles d’autres publications et un nombre incalculable de livres protégés par le droit d’auteur.
L’examen du code de ChatGPT, ainsi que des modèles d’intelligence artificielle de Microsoft construits à l’aide de la technologie OpenAI, est crucial pour les poursuites pour violation du droit d’auteur contre les deux sociétés.
Les éditeurs et les artistes ont intenté environ deux douzaines de poursuites majeures en matière de droits d’auteur contre des sociétés d’IA générative. Ils sont en quête de sang, exigeant une part du gâteau économique qui a fait d’OpenAI l’acteur dominant du secteur et qui a poussé la valorisation de Microsoft au-delà de 3 000 milliards de dollars. Les juges qui tranchent ces affaires peuvent définir les paramètres juridiques relatifs à la manière dont les grands modèles linguistiques sont formés aux États-Unis.
« Les développeurs devraient payer pour le précieux contenu de l’éditeur utilisé pour créer et exploiter leurs produits », a déclaré un porte-parole du Times à BI. « Le succès futur de cette technologie ne doit pas nécessairement se faire au détriment des institutions journalistiques. »
Pour le procès, la société de médias vieille de 173 ans a fait appel à un cabinet d’avocats d’élite, Susman Godfrey, qui a récemment remporté le gigantesque règlement de 787,5 millions de dollars de Dominion auprès de Fox News. D’autres poursuites intentées par des rédactions, notamment le New York Daily News et Mother Jones, se sont accrochées à l’affaire.
Susman Godfrey représente également un groupe d’auteurs, dont George RR Martin, Jodi Picoult et Ta-Nehisi Coates, qui ont déposé des réclamations pour droits d’auteur des mois avant le Times. Si un juge certifie son statut de recours collectif, un éventuel règlement ou jugement pourrait avoir des ramifications pour pratiquement tous les auteurs et artistes dont le travail a été utilisé pour former des modèles d’IA.
Le 12 septembre, des dizaines d’avocats de sociétés de technologie et de journalisme se sont rassemblés dans la salle d’audience d’un juge d’instance du Lower Manhattan pour trouver le meilleur moyen de diviser le processus de découverte, notamment en inspectant le code et les données de formation de ChatGPT. Avec les avocats des auteurs, ils décident encore qui ils peuvent déposer et comment planifier les dépositions.
« C’est aussi passionnant que possible pour les professeurs de droit qui travaillent dans le domaine du droit d’auteur », a déclaré Kristelia García, professeur de droit de la propriété intellectuelle à l’Université de droit de Georgetown.
Fixer les règles
Alors que le Congrès passe au second plan en matière de réglementation de l’IA, l’industrie s’attend à ce que les tribunaux fixent – ou, espèrent-ils, ne fixent pas – les règles.
De nombreux éditeurs, dont Axel Springer, propriétaire de Trading Insider, ont conclu des accords avec des sociétés d’IA générative pour partager leur contenu pour la formation LLM.
La portée et les ressources du procès du Times en font un candidat probable pour une Cour suprême qui établira un précédent. Les avocats examinent également les recours collectifs intentés par les auteurs, ainsi qu’une affaire de l’industrie musicale contre Anthropic, comme étant à surveiller.
« Le New York Times est un poids lourd journalistique », a déclaré García. « Il est grand, il a beaucoup de contenu. Plus important encore, peut-être, il a un grand pouvoir de marché derrière ce contenu. »
Le procès soutient qu’OpenAI a violé sa propriété intellectuelle de deux manières.
Il y a le cas de la « contribution » – alléguant que le LLM a récupéré illégalement plus de 10 millions d’articles du New York Times pour former ChatGPT et Microsoft Copilot sans compensation. Et le cas de la « sortie » – en faisant valoir que lorsqu’on lui demande, ChatGPT peut cracher un article du New York Times pour lequel les lecteurs paieraient autrement un abonnement.
Dans leurs dossiers judiciaires, les avocats ont cité à plusieurs reprises Napster, qui copiait illégalement des millions de chansons et les mettait à disposition gratuitement. OpenAI a également utilisé des articles du New York Times de haute qualité, bien documentés, bien écrits et fondés sur des faits pour rendre ChatGPT si impressionnant, affirme le Times.
Au contraire, OpenAI est pire, selon Justin Nelson, un avocat de Susman Godfrey qui représente les auteurs dans un recours collectif parallèle au cas du Times et dans une affaire similaire contre Anthropic.
Napster était un projet d’étudiants ; OpenAI est soutenu par Microsoft et vaut déjà des milliards.
« Au lieu d’enfants, c’était une entreprise sophistiquée », a déclaré Nelson à BI. « Et au lieu de le faire pour leur usage personnel, ils le faisaient dans un but commercial.
Les représentants d’OpenAI et de Microsoft n’ont pas répondu aux demandes de commentaires de Trading Insider. Devant les tribunaux, ils soutiennent que la doctrine juridique du « fair use » protège la manière dont leurs modèles ingèrent les articles. Les résultats de ChatGPT avec des copies quasi textuelles des articles du Times étaient des résultats « hautement anormaux » qui ne sont pas représentatifs de la façon dont l’application est utilisée, disent-ils.
Napster a été poursuivi en justice, mais il a incité l’industrie musicale à adopter les MP3 et, finalement, le streaming – désormais utilisé pour tout, des jeux vidéo aux films. Le cofondateur de Spotify, Daniel Ek, a cité Napster comme source d’inspiration, et le cofondateur de Napster, Sean Parker, a salué Spotify comme successeur.
Les poursuites pour droits d’auteur intentées par les organisations journalistiques pourraient donner le ton à tous les générateurs d’IA, a prédit García, qui a travaillé dans l’industrie musicale pendant une décennie. L’IA n’est pas particulièrement douée pour générer des films ou réaliser des reportages, mais elle peut imiter le journalisme de manière convaincante.
« Le journalisme est une sorte de canari dans la mine de charbon », a déclaré García. « De la même manière que la musique était le canari à l’époque de Napster, car les gens pouvaient facilement torrent un MP3. Mais à cette époque, on ne pouvait pas facilement torrent un film. »
Compte tenu du grand nombre de personnes impliquées, les poursuites judiciaires des auteurs pourraient avoir un effet encore plus dramatique. Un règlement ou un jugement pourrait modifier les modèles économiques.
« Les gens font preuve de créativité dans les règlements de recours collectifs », a déclaré Matthew Sag, professeur de droit à l’Université Emory qui étudie le droit d’auteur et l’intelligence artificielle. « Vous pourriez réduire les auteurs américains en échange d’un pourcentage du stock ou quelque chose du genre. »
Le code source
La nature même de la technologie de l’IA générative est au cœur des conflits liés aux droits d’auteur.
Que se passe-t-il réellement lorsqu’un grand modèle de langage « apprend » un livre ou un article d’actualité ? Qu’en est-il lorsque ChatGPT fouille dans le modèle pour répondre à une requête ? Le processus crée-t-il une « copie » dans un sens significatif du terme ? Ou les données d’entraînement ne sont-elles qu’une partie d’une grande bouillie de uns et de zéros qui ne ressemblent plus de manière significative à des œuvres spécifiques ?
Les avocats et consultants qui étudient le code de ChatGPT tentent de répondre à ces questions. Ils examinent également les données de formation LLM et prévoient de demander – sous serment – aux principaux dirigeants et programmeurs d’OpenAI comment les modèles sont censés fonctionner.
Une fois le code lu et les dépositions enregistrées, les parties seront en meilleure position pour débattre du « fair use », une doctrine juridique notoirement délicate qui protège l’utilisation de créations « transformatrices » dérivées de matériel protégé par le droit d’auteur.
Si OpenAI réalise réellement des copies de livres et d’articles de presse, à la manière de Napster, alors son processus de formation est-il suffisamment transformateur pour être considéré comme un « usage équitable » ? Les juges de tout le pays sont « partout » pour trancher les affaires de droit d’auteur en matière d’utilisation équitable, selon Christa Laser, professeur de droit de la propriété intellectuelle à l’Université d’État de Cleveland, ce qui pose des enjeux élevés et imprévisibles.
« Je pense que ce sera la grande question en fin de compte qui ira jusqu’à la Cour suprême », a déclaré Laser à BI. « Cette question de l’utilisation équitable des données d’entraînement, de leur ingestion et de leur entraînement. »
Une question clé en matière d’« utilisation équitable » est de savoir si les créations de ChatGPT concurrencent les œuvres journalistiques originales – une question urgente pour les agences de presse.
« Les éditeurs de presse sont les premiers à intenter de telles poursuites judiciaires parce qu’ils ont davantage en jeu », a déclaré García.
Pour déposer une réclamation en matière de droit d’auteur, un demandeur ne peut pas simplement désigner un corpus d’œuvres utilisé comme source d’inspiration. Il doit pointer vers une œuvre spécifique qui, selon eux, a été copiée.
Dans son procès, le New York Times a joint des dizaines de milliers de pages de pièces justificatives totalisant 10 553 897 articles. Il indique qu’OpenAI et Microsoft ont illégalement violé les droits d’auteur de chacun d’eux.
Parmi ces articles se trouve un article datant de 2001, peu après qu’une cour d’appel ait statué contre Napster, dans lequel un journaliste demandait aux utilisateurs ce qu’ils feraient. Ils étaient tous d’accord sur le fait qu’il n’y avait pas de retour en arrière.
« Si Napster ferme ses portes, il y aura davantage de sites », a déclaré un utilisateur au journaliste. « Et ils peuvent en avoir quelques-uns, mais ils ne peuvent pas tous les arrêter. »
