Pourquoi les chatbots AI hallucinent, selon les chercheurs OpenAI

Les chercheurs d’OpenAI affirment avoir craqué l’un des plus grands obstacles à la performance du modèle de langue importante – les hallucinations.

Hallucinations se produisent lorsqu’un modèle de grande langue génère des informations inexactes qu’elle présente comme fait. Ils affligez les LLM les plus populaires, De GPT-5 d’Openai à Claude d’Anthropic.

La constatation de référence d’Openai, qu’elle a rendu publique dans un article publié jeudi, est que les modèles de grande langue hallucinent parce que les méthodes qu’ils ont formées sous Reward devinant plus que d’admettre l’incertitude.

En d’autres termes, les LLM sont informés de le simuler jusqu’à ce qu’ils le fassent. Cependant, certains sont meilleurs que d’autres. Dans un article de blog le mois dernier, Openai a déclaré que les modèles Claude sont plus « conscients de leur incertitude et évitent souvent de faire des déclarations inexactes ». Il a également noté que les taux élevés de refus de Claude risquaient de limiter son utilité.

« Les hallucinations persistent en raison de la façon dont la plupart des évaluations sont classées – les modèles de langue sont optimisés pour être de bons candidats et deviner quand incertain améliore les performances des tests », ont écrit les chercheurs dans l’article.

Les modèles de grands langues sont essentiellement toujours en « mode test », répondant aux questions comme si tout dans la vie était binaire – bien ou mal, noir ou blanc.

À bien des égards, ils ne sont pas équipés pour les réalités de la vie, où l’incertitude est plus courante que la certitude, et la vraie précision n’est pas donnée.

« Les humains apprennent la valeur d’exprimer l’incertitude en dehors de l’école, à l’école des coups durs. D’un autre côté, les modèles de langue sont principalement évalués à l’aide d’examens qui pénalisent l’incertitude », ont écrit les chercheurs.

La bonne nouvelle est qu’il y a un correctif, et cela a à voir avec la refonte des mesures d’évaluation.

« Le problème racine est l’abondance d’évaluations qui ne sont pas alignées », ont-ils écrit. « Les nombreuses évaluations primaires doivent être ajustées pour arrêter de pénaliser les abstentions lorsqu’elles sont incertaines. »

Dans un article de blog sur le journal, Openai a expliqué ce que ce type de réglage impliquerait.

« Les évals largement utilisés et basés sur la précision doivent être mis à jour afin que leur score décourage de la devinettes. Si les principaux tableaux de bord restent enrichissants, les modèles continueront d’apprendre à deviner », a déclaré Openai.

OpenAI n’a pas immédiatement répondu à une demande de commentaires de Trading Insider.

Pourquoi les chatbots AI hallucinent, selon les chercheurs OpenAI

Les théories du pic pétrolier existent depuis les années 1880, et les derniers avertissements ne se réaliseront pas non plus, déclare le chef de l’OPEP

J’ai dépensé 5 700 $ pour visiter l’Antarctique. Ce fut l’un des voyages les plus épuisants de ma vie – mais je ne le regrette pas.

Bourse aujourd’hui : les actions américaines clôturent à des niveaux record après un rapport sur l’emploi de juin plutôt accommodant

J’ai volé Delta One sur un vol à l’étranger de 9 heures. Voici ce qui m’a surpris dans le siège de classe affaires.

Les vendeurs de TikTok se préparent à la « fin du monde »

Une coach en rencontres révèle à quoi ressemble le pitch de « Shark Tank » – et pourquoi elle n’a pas conclu son accord avec Mark Cuban

Histoires connexes

Trading Insider raconte les histoires innovantes que vous voulez savoir

Trading Insider raconte les histoires innovantes que vous voulez savoir

A lire également