Uh oh — on dirait que le modèle d'IA de ChatGPT est redevenu paresseux

Le GPT-4 d'OpenAI semble être devenu paresseux – encore une fois.

Cette fois, cependant, les utilisateurs frustrés du modèle qui alimente le service payant de ChatGPT ne cherchent pas une solution rapide.

Ils se tournent plutôt vers d'autres modèles, un en particulier retenant leur attention : Claude d'Anthropic.

Le top model d'OpenAI semble toujours paresseux

Ces derniers jours, les utilisateurs de GPT-4, lancé pour la première fois en mars 2023, se sont rendus sur le forum des développeurs et sur les réseaux sociaux d'OpenAI pour s'exprimer sur le fait que le modèle semblait être beaucoup moins performant qu'il ne l'était autrefois.

Certains se plaignent du fait qu'il ne suit pas les « instructions explicites » en fournissant du code tronqué lorsqu'on leur demande le code complet. D'autres citent des problèmes pour que le modèle réponde complètement à leurs requêtes.

« La réalité est qu'il est devenu inutilisable », a écrit la semaine dernière un utilisateur sur le forum en ligne d'OpenAI.

Ce qui est frustrant pour les utilisateurs, c'est que ce n'est pas la première fois que les performances sont à la traîne sur un modèle non seulement censé être le meilleur d'OpenAI, mais qu'ils paient 20 $ par mois pour l'utiliser.

Comme mon collègue Alistair Barr l’a signalé pour la première fois, des signes indiquant que GPT-4 devenait plus paresseux et plus stupide sont apparus au cours de l’été de l’année dernière. Le modèle semblait rencontrer des difficultés car il présentait une « logique affaiblie » et renvoyait de mauvaises réponses aux utilisateurs.

De nouvelles preuves de paresse sont apparues plus tôt cette année, le PDG d'OpenAI, Sam Altman, reconnaissant même que GPT-4 avait été paresseux. Il a publié sur X en février qu'un correctif avait été publié pour répondre aux plaintes.

gpt-4 a démarré lentement sur ses résolutions du nouvel an mais devrait maintenant être beaucoup moins paresseux maintenant !

– Sam Altman (@sama) 4 février 2024

Cependant, à l'époque où des signes de faiblesse sont apparus pour la première fois, aucune autre entreprise n'avait publié un modèle qui, du moins sur le papier, avait des performances comparables à celles de GPT-4, gardant les utilisateurs attachés à l'entreprise qui a sans doute déclenché l'engouement pour l'IA générative de l'année dernière.

Ce n'est pas le cas actuellement.

Des alternatives GPT-4 émergent

Face à une nouvelle série de problèmes avec GPT-4, les utilisateurs ont expérimenté de nombreux autres modèles qui ont émergé depuis et qui non seulement correspondent au modèle haut de gamme d'OpenAI, mais semblent également le surpasser.

Prenez Claude d'Anthropic. Le rival d'OpenAI, soutenu par Google et Amazon, a publié plus tôt ce mois-ci une version premium de son modèle Claude appelée Claude 3 Opus. Considérez-le comme un équivalent de GPT-4.

Lors de sa sortie, Anthropic a partagé des données comparant les performances de Claude 3 Opus à celles de ses pairs sur plusieurs critères tels que « connaissances de premier cycle », « résolution de problèmes mathématiques », « code » et « évaluations mixtes ». Dans presque tous les cas, Claude est arrivé en tête.

Ce ne sont pas seulement les données d'Anthropic qui indiquent que son modèle est meilleur. Cette semaine, Claude 3 Opus a dépassé GPT-4 sur LMSYS Chatbot Arena, une plateforme ouverte d'évaluation de modèles d'IA.

Bien sûr, il y a une différence entre quelque chose qui semble bon sur papier et qui peut être mis en œuvre dans la pratique. Ainsi, à la suite des problèmes de GPT-4, même les fidèles d'OpenAI ont été fortement incités à essayer des alternatives comme Claude.

Il est clair que beaucoup sont plus qu’impressionnés.

Après une séance de codage avec Claude 3 Opus, l'ingénieur logiciel Anton a conclu sur X la semaine dernière qu'il écrasait GPT-4. « Je ne pense pas que les critères standards rendent justice à ce modèle », a-t-il écrit.

Je viens de passer une longue session de codage avec l'opus Claude 3 et il écrase absolument gpt-4. Je ne pense pas que les critères standards rendent justice à ce modèle

– Antoine (@abacaj) 19 mars 2024

L'investisseur providentiel Allie K. Miller a reconnu que GPT-4 semble pire qu'il y a quelques mois. « La plupart des gens que je connais utilisent Claude 3 », a-t-elle écrit, ainsi que le modèle Mixtral 8x7B de Mistral AI.

Ethan Mollick, professeur à Wharton, a même trouvé que Claude 3 connaissait mieux les langues elfiques construites par JRR Tolkien, le sindarin et le quenya. « Lorsqu'on lui demande de traduire 'Mon aéroglisseur est plein d'anguilles', Claude 3 fait une traduction originale, GPT-4 effectue une recherche sur le Web », a-t-il écrit sur X.

Pendant ce temps, sur le forum d'OpenAI, les utilisateurs ont décrit Claude comme beaucoup plus fiable pour des tâches telles que le codage, et ont décrit Claude 3 Opus comme s'apparentant aux performances plus nettes de GPT-4 lors de sa sortie.

OpenAI n'a pas répondu à une demande de commentaires de BI sur les problèmes de performances de GPT-4.

Certains, comme Miller, ne pensent pas nécessairement que ces problèmes constituent une raison suffisante pour abandonner complètement OpenAI. La baisse des performances, disent-ils, pourrait être due au fait que « OpenAI se concentre sur le prochain modèle » et pourrait y consacrer des ressources.

Cela pourrait être le cas. Comme mes collègues Kali Hays et Darius Rafieyan l'ont rapporté ce mois-ci, OpenAI est sur le point de publier GPT-5 d'ici le milieu de l'année.

Le moins qu'on puisse faire, c'est de ne pas être paresseux.