Pourquoi les chatbots AI hallucinent, selon les chercheurs OpenAI
Les chercheurs d’OpenAI affirment avoir craqué l’un des plus grands obstacles à la performance du modèle de langue importante – les hallucinations.
Hallucinations se produisent lorsqu’un modèle de grande langue génère des informations inexactes qu’elle présente comme fait. Ils affligez les LLM les plus populaires, De GPT-5 d’Openai à Claude d’Anthropic.
La constatation de référence d’Openai, qu’elle a rendu publique dans un article publié jeudi, est que les modèles de grande langue hallucinent parce que les méthodes qu’ils ont formées sous Reward devinant plus que d’admettre l’incertitude.
En d’autres termes, les LLM sont informés de le simuler jusqu’à ce qu’ils le fassent. Cependant, certains sont meilleurs que d’autres. Dans un article de blog le mois dernier, Openai a déclaré que les modèles Claude sont plus « conscients de leur incertitude et évitent souvent de faire des déclarations inexactes ». Il a également noté que les taux élevés de refus de Claude risquaient de limiter son utilité.
« Les hallucinations persistent en raison de la façon dont la plupart des évaluations sont classées – les modèles de langue sont optimisés pour être de bons candidats et deviner quand incertain améliore les performances des tests », ont écrit les chercheurs dans l’article.
Les modèles de grands langues sont essentiellement toujours en « mode test », répondant aux questions comme si tout dans la vie était binaire – bien ou mal, noir ou blanc.
À bien des égards, ils ne sont pas équipés pour les réalités de la vie, où l’incertitude est plus courante que la certitude, et la vraie précision n’est pas donnée.
« Les humains apprennent la valeur d’exprimer l’incertitude en dehors de l’école, à l’école des coups durs. D’un autre côté, les modèles de langue sont principalement évalués à l’aide d’examens qui pénalisent l’incertitude », ont écrit les chercheurs.
La bonne nouvelle est qu’il y a un correctif, et cela a à voir avec la refonte des mesures d’évaluation.
« Le problème racine est l’abondance d’évaluations qui ne sont pas alignées », ont-ils écrit. « Les nombreuses évaluations primaires doivent être ajustées pour arrêter de pénaliser les abstentions lorsqu’elles sont incertaines. »
Dans un article de blog sur le journal, Openai a expliqué ce que ce type de réglage impliquerait.
« Les évals largement utilisés et basés sur la précision doivent être mis à jour afin que leur score décourage de la devinettes. Si les principaux tableaux de bord restent enrichissants, les modèles continueront d’apprendre à deviner », a déclaré Openai.
OpenAI n’a pas immédiatement répondu à une demande de commentaires de Trading Insider.

