Les améliorations de l’IA ralentissent. Les entreprises ont un plan pour briser le mur.

Les dirigeants de la Silicon Valley impliqués dans le boom de l’intelligence artificielle ont un message à adresser aux critiques : leur technologie n’a pas heurté un mur.

Un débat acharné sur la question de savoir si les améliorations des modèles d’IA ont atteint leurs limites a éclaté ces dernières semaines, obligeant plusieurs PDG à réagir. Le patron d’OpenAI, Sam Altman, a été parmi les premiers à s’exprimer, publiant sur X ce mois-ci qu’« il n’y a pas de mur ».

Dario Amodei, PDG de la société rivale Anthropic, et Jensen Huang, PDG de Nvidia, ont également contesté les informations selon lesquelles les progrès de l’IA auraient ralenti. D’autres, dont Marc Andreessen, affirment que les modèles d’IA ne s’améliorent pas sensiblement et convergent tous pour fonctionner à des niveaux à peu près similaires.

C’est une question qui coûte des milliards de dollars pour l’industrie technologique. Si les méthodes de formation éprouvées sur les modèles d’IA fournissent des rendements décroissants, cela pourrait saper la raison principale d’un cycle d’investissement sans précédent qui finance de nouvelles startups, de nouveaux produits et centres de données – et même la relance de centrales nucléaires inutilisées.

Trading Insider s’est entretenu avec 12 personnes à la pointe du secteur de l’IA, dont des fondateurs de startups, des investisseurs et des initiés actuels et anciens de Google DeepMind et OpenAI, sur les défis et les opportunités à venir dans la quête d’une IA superintelligente.

Ensemble, ils ont déclaré qu’exploiter de nouveaux types de données, intégrer le raisonnement dans les systèmes et créer des modèles plus petits mais plus spécialisés étaient quelques-uns des moyens de faire tourner les rouages du progrès de l’IA.

Le dilemme de la pré-formation

Les chercheurs soulignent deux obstacles clés que les entreprises peuvent rencontrer au cours de la première phase du développement de l’IA, connue sous le nom de pré-formation. Le premier est l’accès à la puissance de calcul. Plus précisément, cela signifie se procurer des puces spécialisées appelées GPU. Il s’agit d’un marché dominé par le géant des puces Nvidia, basé à Santa Clara, qui a dû faire face à des contraintes d’approvisionnement face à une demande ininterrompue.

« Si vous avez 50 millions de dollars à dépenser en GPU, mais que vous êtes en bas de la liste de Nvidia, nous n’avons pas assez de kimchi pour y parvenir, et cela prendra du temps », a déclaré Henri Tilloy, associé du groupe français. société de capital-risque Singular.

Il existe également un autre problème d’approvisionnement : les données de formation. Les entreprises d’IA se sont heurtées à des limites quant à la quantité de données publiques qu’elles peuvent sécuriser pour alimenter leurs grands modèles linguistiques lors de la pré-formation.

Cette phase consiste à former un LLM sur un vaste corpus de données, généralement récupérées sur Internet puis traitées par des GPU. Ces informations sont ensuite décomposées en « jetons », qui constituent les unités fondamentales de données traitées par un modèle.

Même si l’ajout de plus de données et de GPU sur un modèle a produit de manière fiable des modèles plus intelligents année après année, les entreprises ont épuisé l’offre de données accessibles au public sur Internet. La société de recherche Epoch AI prédit que les données textuelles utilisables pourraient être épuisées d’ici 2028.

« L’Internet n’a qu’une étendue limitée », a déclaré à BI Matthew Zeiler, fondateur et PDG de Clarifai.

Données multimodales et privées

Eric Landau, cofondateur et PDG de la start-up de données Encord, a déclaré que c’est là que d’autres sources de données pourraient offrir une voie à suivre dans la lutte pour surmonter le goulot d’étranglement des données publiques.

Un exemple est celui des données multimodales, qui impliquent d’alimenter les systèmes d’IA en sources d’informations visuelles et audio, telles que des photos ou des enregistrements de podcast. « C’est une partie du tableau », a déclaré Landau. « J’ajoute simplement plus de modalités de données. » Les laboratoires d’IA ont déjà commencé à utiliser les données multimodales comme outil, mais Landau a déclaré qu’elles restaient « très sous-utilisées ».

Sharon Zhou, cofondatrice et PDG de la plateforme LLM Lamini, voit un autre domaine largement inexploité : les données privées. Les entreprises ont conclu des accords de licence avec des éditeurs pour avoir accès à leurs vastes réserves d’informations. OpenAI, par exemple, a conclu des partenariats avec des organisations telles que Vox Media et Stack Overflow, une plateforme de questions-réponses pour les développeurs, pour intégrer des données protégées par le droit d’auteur dans leurs modèles.

« Nous ne sommes même pas près d’utiliser toutes les données privées du monde pour compléter les données dont nous avons besoin pour la pré-formation », a déclaré Zhou. « Du fait du travail avec nos clients d’entreprise et même de startups, il y a beaucoup plus de signaux dans ces données qui sont très utiles à capturer pour ces modèles. »

Un problème de qualité des données

De nombreux efforts de recherche se concentrent désormais sur l’amélioration de la qualité des données sur lesquelles un LLM est formé plutôt que sur leur seule quantité. Les chercheurs pouvaient auparavant se permettre d’être « assez paresseux avec les données » lors de la pré-formation, a déclaré Zhou, en se contentant de jeter autant que possible un modèle pour voir ce qui collait. « Ce n’est plus tout à fait vrai », a-t-elle déclaré.

Une solution explorée par les entreprises concerne les données synthétiques, une forme artificielle de données générées par l’IA.

Daniele Panfilo, PDG de la startup Aindo AI, a déclaré que les données synthétiques pourraient être un « outil puissant pour améliorer la qualité des données », car elles pourraient « aider les chercheurs à construire des ensembles de données qui répondent exactement à leurs besoins d’information ». Ceci est particulièrement utile dans une phase de développement de l’IA connue sous le nom de post-formation, dans laquelle des techniques telles que le réglage fin peuvent être utilisées pour donner à un modèle pré-entraîné un ensemble de données plus petit qui a été soigneusement conçu avec une expertise dans un domaine spécifique, tel que le droit. ou des médicaments.

Un ancien employé de Google DeepMind, le laboratoire d’IA du géant de la recherche, a déclaré à BI que « Gemini a modifié sa stratégie », passant d’une stratégie plus grande à une stratégie plus efficace. « Je pense qu’ils ont réalisé qu’il est en fait très coûteux de servir des modèles aussi grands, et qu’il est préférable de les spécialiser pour diverses tâches grâce à une meilleure post-formation », a déclaré l’ancien employé.

En théorie, les données synthétiques offrent un moyen utile d’affiner les connaissances d’un modèle et de le rendre plus petit et plus efficace. Dans la pratique, il n’existe pas de consensus total sur l’efficacité des données synthétiques pour rendre les modèles plus intelligents.

« Ce que nous avons découvert cette année avec nos données synthétiques, appelées Cosmopedia, c’est qu’elles peuvent aider pour certaines choses, mais ce n’est pas la solution miracle qui va résoudre notre problème de données », Thomas Wolf, cofondateur et directeur scientifique de l’open- plateforme source Hugging Face, a déclaré à BI.

Jonathan Frankle, scientifique en chef de l’IA chez Databricks, a déclaré qu’il n’y avait pas de « repas gratuit » en matière de données synthétiques et a souligné la nécessité d’une surveillance humaine. « Si vous n’avez aucune connaissance humaine et aucun processus de filtrage et de sélection des données synthétiques les plus pertinentes, alors tout ce que le modèle fait, c’est reproduire son propre comportement, car c’est ce que le modèle est censé faire. « , a-t-il déclaré.

Les inquiétudes concernant les données synthétiques ont atteint leur paroxysme après qu’un article publié en juillet dans la revue Nature a déclaré qu’il existait un risque « d’effondrement du modèle » avec « une utilisation aveugle » des données synthétiques. Le message était d’agir avec prudence.

Construire une machine à raisonner

Pour certains, se concentrer simplement sur la partie formation ne suffira pas.

Ilya Sutskever, ancien scientifique en chef d’OpenAI et cofondateur de Safe Superintelligence, a déclaré ce mois-ci à Reuters que les résultats de la mise à l’échelle des modèles en pré-formation avaient stagné et que « tout le monde cherche la prochaine chose ».

Cette « prochaine chose » semble être un raisonnement. L’attention de l’industrie s’est de plus en plus tournée vers un domaine de l’IA connu sous le nom d’inférence, qui se concentre sur la capacité d’un modèle entraîné à répondre à des requêtes et à des informations qu’il n’a peut-être pas vues auparavant avec des capacités de raisonnement.

Lors de l’événement Ignite de Microsoft ce mois-ci, le PDG Satya Nadella a déclaré qu’au lieu de voir les soi-disant lois de mise à l’échelle de l’IA se heurter à un mur, il voyait l’émergence d’un nouveau paradigme pour le « calcul au moment du test », c’est-à-dire lorsqu’un modèle a la capacité prendre plus de temps pour répondre aux invites plus complexes des utilisateurs. Nadella a souligné une nouvelle fonctionnalité « réfléchir plus fort » pour Copilot – l’agent IA de Microsoft – qui augmente le temps de test pour « résoudre des problèmes encore plus difficiles ».

Aymeric Zhuo, cofondateur et PDG de la startup d’IA Agemo, a déclaré que le raisonnement de l’IA « a été un domaine de recherche actif », d’autant plus que « l’industrie est confrontée à un mur de données ». Il a expliqué à BI que l’amélioration du raisonnement nécessitait d’augmenter le temps de test ou le temps de calcul du temps d’inférence.

En règle générale, plus un modèle met de temps à traiter un ensemble de données, plus les résultats qu’il génère sont précis. À l’heure actuelle, les modèles sont interrogés en millisecondes. « Cela n’a pas vraiment de sens », a déclaré à BI Sivesh Sukumar, un investisseur de la société d’investissement Balderton. « Si l’on réfléchit au fonctionnement du cerveau humain, même les personnes les plus intelligentes prennent du temps pour trouver des solutions aux problèmes. »

En septembre, OpenAI a publié un nouveau modèle, o1, qui tente de « réfléchir » à un problème avant d’y répondre. Un employé d’OpenAI, qui a demandé à rester anonyme, a déclaré à BI que « raisonner à partir des premiers principes » n’est pas le point fort des LLM car ils travaillent sur la base « d’une probabilité statistique de savoir quels mots viennent ensuite », mais si nous « voulons qu’ils le fassent ». penser et résoudre de nouveaux problèmes, ils doivent raisonner. »

Noam Brown, chercheur chez OpenAI, pense que l’impact d’un modèle doté de plus grandes capacités de raisonnement peut être extraordinaire. « Il s’est avéré que demander à un robot de réfléchir pendant seulement 20 secondes à une main de poker permettait d’obtenir les mêmes performances d’amélioration que de multiplier par 100 000 le modèle et de l’entraîner 100 000 fois plus longtemps », a-t-il déclaré lors d’une conférence à TED AI le mois dernier. .

Google et OpenAI n’ont pas répondu aux demandes de commentaires.

Le boom de l’IA atteint son point de bascule

Ces efforts donnent aux chercheurs des raisons de garder espoir, même si les signes actuels indiquent un ralentissement des progrès en matière de performances. Comme l’a déclaré à BI un ancien employé de DeepMind qui a travaillé sur Gemini, les gens « essaient constamment de trouver toutes sortes d’améliorations différentes ».

Cela dit, l’industrie devra peut-être s’adapter à un rythme d’amélioration plus lent.

« Je pense simplement que nous avons traversé cette période folle où les modèles s’amélioraient très rapidement, il y a un an ou deux. Cela n’a jamais été comme ça auparavant », a déclaré l’ancien employé de DeepMind à BI. « Je ne pense pas que le taux d’amélioration ait été aussi rapide cette année, mais je ne pense pas que cela ressemble à un ralentissement. »

Zhou de Lamini a fait écho à ce point. Les lois de mise à l’échelle – une observation selon laquelle les modèles d’IA s’améliorent avec la taille, plus de données et une plus grande puissance de calcul – fonctionnent sur une échelle logarithmique plutôt que linéaire, a-t-elle déclaré. En d’autres termes, considérez les progrès de l’IA comme une courbe plutôt que comme une ligne droite ascendante sur un graphique. Cela rend le développement beaucoup plus coûteux « que ce à quoi nous nous attendions pour la prochaine étape importante de cette technologie », a déclaré Zhou.

Elle a ajouté : « C’est pourquoi je pense que nos attentes ne seront tout simplement pas satisfaites dans les délais que nous souhaitons, mais aussi pourquoi nous serons plus surpris par les capacités lorsqu’elles apparaîtront. »

Les entreprises devront également considérer combien il en coûtera plus cher pour créer les prochaines versions de leurs modèles très prisés. Amodei, d’Anthropic, a déclaré qu’un programme de formation pourrait un jour coûter 100 milliards de dollars. Ces coûts incluent les GPU, les besoins énergétiques et le traitement des données.

Reste à savoir si les investisseurs et les clients seront prêts à attendre plus longtemps pour bénéficier de la superintelligence qui leur a été promise. Des problèmes avec Copilot de Microsoft, par exemple, amènent certains clients à se demander si cet outil tant vanté en vaut la peine.

Pour l’instant, les leaders de l’IA soutiennent qu’il existe de nombreux leviers à exploiter – notamment de nouvelles sources de données et l’accent mis sur l’inférence – pour garantir la poursuite de l’amélioration des modèles. Les investisseurs et les clients devront peut-être se préparer à un rythme plus lent par rapport au rythme effréné fixé par OpenAI lors du lancement de ChatGPT il y a deux ans.

De plus gros problèmes nous attendent s’ils ne le font pas.