OpenAI fait un pas de plus vers une IA capable de penser comme les humains avec le nouveau modèle « o1 »
La frontière séparant l’intelligence humaine de l’intelligence artificielle est devenue plus étroite.
OpenAI a dévoilé jeudi o1, le premier d’une nouvelle série de modèles d’IA « conçus pour passer plus de temps à réfléchir avant de répondre », a déclaré la société dans un article de blog.
Le nouveau modèle est capable de réaliser des tâches complexes et, par rapport aux modèles précédents, de résoudre des problèmes plus difficiles en sciences, en codage et en mathématiques. En substance, ils pensent un peu plus comme des humains que les chatbots IA existants.
Alors que les précédentes versions des modèles d’OpenAI ont excellé dans les tests standardisés comme le SAT ou l’Uniform Bar Examination, la société affirme que o1 va encore plus loin. Ses performances sont « similaires à celles des étudiants en doctorat sur des tâches de référence difficiles en physique, chimie et biologie ».
Par exemple, il a battu de loin GPT-4o, un modèle multimodal dévoilé par OpenAI en mai, à l’examen de qualification pour l’Olympiade internationale de mathématiques. GPT-4o n’a résolu correctement que 13 % des problèmes de l’examen, tandis que o1 a obtenu un score de 83 %, a déclaré la société.
L’augmentation spectaculaire des capacités de raisonnement du o1 provient en partie d’une technique d’incitation connue sous le nom de « chaîne de pensée ». OpenAI a déclaré que le o1 « apprend à reconnaître et à corriger ses erreurs. Il apprend à décomposer les étapes délicates en étapes plus simples. Il apprend à essayer une approche différente lorsque l’approche actuelle ne fonctionne pas. »
Cela ne veut pas dire qu’il n’y a pas de compromis par rapport aux modèles précédents. OpenAI a noté que si les testeurs humains préféraient les réponses d’o1 dans les catégories à forte intensité de raisonnement comme l’analyse de données, le codage et les mathématiques, GPT-4o l’emportait toujours dans les tâches en langage naturel comme l’écriture personnelle.
La mission première d’OpenAI a longtemps été de créer une intelligence artificielle générale, ou AGI, une forme encore hypothétique d’IA qui imite les capacités humaines. Au cours de l’été, alors qu’o1 était encore en développement, l’entreprise a dévoilé un nouveau système de classification à cinq niveaux pour suivre ses progrès vers cet objectif. Les dirigeants de l’entreprise auraient dit aux employés qu’o1 s’approchait du niveau deux, qu’elle identifiait comme des « raisonneurs » avec une capacité de résolution de problèmes de niveau humain.
Ethan Mollick, professeur à la Wharton School de l’Université de Pennsylvanie, qui a accès à o1 depuis plus d’un mois, a déclaré que les gains du modèle sont peut-être mieux illustrés par la façon dont il résout les mots croisés. Les mots croisés sont généralement difficiles à résoudre pour les grands modèles de langage car « ils nécessitent une résolution itérative : essayer et rejeter de nombreuses réponses qui s’influencent toutes les unes les autres », a écrit Mollick dans un article sur son Substack. La plupart des grands modèles de langage « ne peuvent ajouter qu’un jeton/mot à la fois à leur réponse ».
Mais lorsque Mollick a demandé à o1 de résoudre un mot croisé, il a réfléchi pendant « 108 secondes » avant de répondre. Il a déclaré que ses réflexions étaient à la fois « éclairantes » et « assez impressionnantes » même si elles n’étaient pas entièrement correctes.
D’autres experts en IA sont cependant moins convaincus.
Gary Marcus, professeur de sciences cognitives à l’université de New York, a déclaré à Trading Insider que le modèle était une « ingénierie impressionnante » mais ne constituait pas un pas de géant. « Je suis sûr qu’il sera surfait, comme d’habitude, mais il n’est certainement pas proche de l’AGI », a-t-il déclaré.
Depuis qu’OpenAI a dévoilé GPT-4 l’année dernière, l’entreprise a publié des itérations successives dans sa quête pour inventer l’IA générale. En avril, GPT-4 Turbo a été mis à la disposition des abonnés payants. L’une des mises à jour comprenait la possibilité de générer des réponses « plus conversationnelles ».
La société a annoncé en juillet qu’elle testait un produit de recherche IA appelé SearchGPT avec un groupe limité d’utilisateurs.