Openai récolte ce qu’il a semé avec Deepseek. Quel est ce vieux dicton sur le karma?

Openai récolte ce qu'il a semé avec Deepseek. Quel est ce vieux dicton sur le karma?

Dans le nouveau monde courageux de l’IA générative, il y a un moment que tout le monde vivra. C’est la prise de conscience que votre travail original est utilisé pour former des modèles d’IA qui pourraient être en concurrence contre vous.

Ce moment est arrivé pour Openai et PDG Sam Altman.

La startup américaine a déclaré cette semaine que le laboratoire chinois Deepseek peut avoir « inapproprié » les sorties OpenAI pour former de nouveaux modèles d’IA dans un processus appelé distillation.

Traduction: Nous pensons que vous avez utilisé notre contenu sans autorisation, et ce n’est pas autorisé.

Pour certains experts de l’IA, ces plaintes sont hypocrites. Le succès d’Openai est construit sur un processus similaire. La startup propose depuis des années des sorties et des données sur Internet et a utilisé cela pour former ses propres modèles. Cela comprend la récupération du contenu protégé par le droit d’auteur et d’autres travaux originaux de milliers d’entreprises qui n’ont pas autorisé cette utilisation.

En fait, c’est ce que font la plupart des développeurs de modèles, selon Nick Vincent, professeur adjoint en informatique à l’Université Simon Fraser, qui étudie comment les données sont utilisées dans l’IA.

« Ces entreprises plaident simultanément pour le droit de s’entraîner sur tout ce sur quoi ils peuvent mettre la main tout en refusant à leurs concurrents le droit de s’entraîner sur les résultats du modèle », a-t-il écrit dans un blog cette semaine. « Règles pour toi, mais pas pour moi? »

Deepseek = juste des déserts

Vincent considère la montée en puissance de Deepseek comme le résultat inévitable d’une formation de données gratuitement pour tous où les entreprises d’IA prennent le contenu qu’ils veulent et demandent pardon plus tard.

Cela a désormais retourné contre OpenAI, qui pourrait avoir ses propres sorties pillées au nom de Progress IA. La startup « aura du mal à se défendre devant la Cour de l’opinion publique à ce sujet », a déclaré Vincent à Trading Insider mercredi. « Il y a un compte à venir. »

Il espère que ce calcul encouragera les entreprises technologiques à créer un nouveau système qui donne un crédit et une rémunération appropriés aux créateurs de contenu.

« Jusqu’à présent, aucun des laboratoires AI n’a sérieusement pensé à cela, donc Deepseek est leur juste déserts », a ajouté Vincent.

Utilisation équitable juste pour Openai, ou tout le monde?

De haute qualité données de formation est un ingrédient crucial de puissants modèles d’IA. De nombreuses entreprises qui ont créé ces informations souhaitent être payées pour fournir des renseignements à ces nouveaux produits. Entreprises technologiques Je ne veux pas être obligé de payer. Ce différend est en cours de disparition devant le tribunal.

Openai est poursuivi par des auteurs qui affirment que la startup enfreint la loi sur le droit d’auteur en utilisant leurs livres pour former des modèles d’IA. Le New York Times poursuit une plainte similaire.

OpenAI a également été accusé d’utiliser du contenu YouTube pour former son modèle de génération vidéo SORA. Le PDG de YouTube, Neal Mohan, a déclaré l’année dernière que si cela était vrai, cela violerait les règles de la plate-forme vidéo.

Openai a nié avoir enfreint les lois sur le droit d’auteur, citant le Doctrine « utilisation équitable », qui permet une utilisation non autorisée des œuvres protégées par le droit d’auteur dans certaines situations, y compris l’enseignement, la recherche et les reportages.

Alors, l’utilisation par Deepseek des résultats d’Openai constituerait-elle également une utilisation équitable?

« Très potentiellement, oui », a déclaré Vincent.

L’utilisation équitable n’est pas seulement pour vous-même quand c’est pratique. Ce serait, bien, injuste.

J’ai interrogé Openai sur tout cela mercredi et cela n’a pas répondu. La startup a des partenariats avec certaines entreprises qui autorisent l’utilisation de leur contenu pour la formation des modèles d’IA. Axel Springer, propriétaire de Trading Insider, a conclu l’une de ces transactions en 2023.

Distillation et karma

Comment les sorties du modèle AI sont-elles de toute façon des moyens compétitifs?

La distillation est le terme technique pour extraire des renseignements enfouis dans un modèle et le tissant dans un nouveau, selon Vincent. L’AI Godfathers, dont Geoffrey Hinton, a écrit un document de recherche à ce sujet en 2015 intitulé « Distillant les connaissances dans un réseau neuronal ».

À l’époque, les chercheurs ont décrit une version dynamique de cela, où un laboratoire ou une entreprise prendrait ses propres anciens modèles et utiliserait des sorties d’eux pour infuser intelligemment une nouvelle offre avec plus d’intelligence.

La distillation de l’intelligence du modèle d’IA de quelqu’un d’autre sans autorisation est mal vu dans certains cercles de recherche, mais se produit beaucoup, selon Vincent.

Le document de recherche de Deepseek sur son nouveau modèle R1 décrit en utilisant la distillation avec des modèles open source, mais il n’a pas mentionné OpenAI.

« Nous démontrons que les modèles de raisonnement des modèles plus grands peuvent être distillés en modèles plus petits, ce qui entraîne de meilleures performances », ont écrit les chercheurs du laboratoire chinois.

Depuis que ces nouvelles offres ont commencé à déployer à la fin de l’année dernière, certains chercheurs de l’IA ont théorisé que Deepseek a utilisé des sorties du nouveau modèle « Raisonnement » d’OpenAI, appelé O1, comme données synthétiques pour améliorer ses propres modèles, tels que R1.

En décembre, alors que Deepseek commençait à épater le champ de l’IA, Altman semblait faire une fouille à son nouveau rival.

« Il est (relativement) facile de copier quelque chose que vous savez fonctionne. Il est extrêmement difficile de faire quelque chose de nouveau, de risque et difficile quand vous ne savez pas si cela fonctionnera », a-t-il écrit sur X.

Quelle est cette phrase à propos du karma? Je ne peux pas l’écrire ici. Si vous ne le savez pas, allez demander à Chatgpt. Ou Deepseek.

A lire également