De grands sites Web comme Amazon et le New York Times bloquent de plus en plus le robot d’exploration Web GPTBot d’OpenAI.

De grands sites Web comme Amazon et le New York Times bloquent de plus en plus le robot d'exploration Web GPTBot d'OpenAI.
  • OpenAI a déclaré ce mois-ci qu’il utilisait son propre robot d’exploration Web pour collecter des données de formation pour ChatGPT.
  • Il a promis de ne pas explorer les sites Web en déployant un outil Web vieux de plusieurs décennies, robot.txt.
  • Certains des plus grands noms des médias et de la technologie, comme Reuters et Amazon, l’ont depuis déployé.

Des dizaines de grandes entreprises, dont Amazon et le New York Times, se sont précipitées pour bloquer GPTBot, un outil qu’OpenAI a récemment annoncé qu’il utilisait pour explorer le Web à la recherche de données qui seraient transmises à son chatbot populaire, ChatGPT.

Depuis cette semaine, 70 des 1 000 plus grands sites Web au monde ont décidé de bloquer GPTBot, le robot d’exploration Web OpenAI révélé il y a deux semaines était utilisé pour collecter d’énormes quantités d’informations sur Internet pour entraîner ChatGPT. Originality.ai, une société qui vérifie le contenu pour voir s’il est généré par l’IA ou s’il est plagié, a mené une analyse qui a révélé que plus de 15 % des 100 sites Web les plus populaires ont décidé de bloquer GPTBot au cours des deux dernières semaines.

Les six plus grands sites Web bloquant désormais le robot sont amazon.com (ainsi que plusieurs de ses homologues internationaux), nytimes.com, cnn.com, wikihow.com, Shutterstock.com et quora.com.

Les 100 principaux sites bloquant GPTBot incluent bloomberg.com, scribd.com et reuters.com, ainsi que insider.com et businessinsider.com. Parmi les 1 000 principaux sites bloquant le robot figurent ikea.com, airbnb.com, nextdoor.com, nymag.com, theatlantic.com, axios.com, usmagazine.com, lonelyplanet.com et coursera.org.

« GPTBot a été lancé il y a 14 jours et le pourcentage des 1 000 premiers sites le bloquant n’a cessé d’augmenter », indique l’analyse.

La façon dont ces sites Web bloquent GPTBot est relativement simple, voire grossière, selon votre point de vue. Les sites incluent un fichier appelé robots.txt, et GPTBot a été ajouté à sa liste « interdire ».

Robots.txt est un outil créé dans les années 1990 destiné à empêcher les robots d’exploration Web, tels que les robots de recherche de Google ou de Bing, d’extraire des données et des informations d’un site Web. Lors de la révélation du robot d’exploration, OpenAI a déclaré qu’il respecterait le fichier robots.txt et que GPTBot n’explorerait pas les sites Web qui le déploient.

Une grande partie de ce qui est disponible sur Internet, en particulier les textes et les images, est techniquement protégé par le droit d’auteur. Les robots d’exploration comme GPTBot ne demandent pas d’autorisation, de licence ou ne paient pas pour utiliser les données ou informations qu’ils extraient. La seule façon de les éviter à ce stade est d’utiliser le fichier robots.txt, bien que les entreprises qui déploient des robots d’exploration ne soient pas légalement tenues de reconnaître les restrictions du fichier robots.txt.

Il y a une prise de conscience croissante des règles de droit d’auteur et de la propriété des données que ces robots utilisent pour former des projets d’IA basés sur de grands modèles de langage, ou LLM, à mesure que des outils comme ChatGPT ont explosé sur la scène technologique. Plusieurs procès sont déjà en cours. L’auteur Stephen King, après avoir appris que ses livres ont été utilisés dans des programmes de formation en IA, a déclaré qu’il regardait l’avenir avec une « certaine fascination terrible ».

Pour sa part, OpenAI a tenté de cacher que ChatGPT avait été formé sur tout matériel protégé par le droit d’auteur.

Un représentant d’OpenAI n’a pas pu être contacté dans l’immédiat pour commenter.

Voir ci-dessous la liste complète des plus grands sites Web à avoir bloqué GPTBot entre le 8 et le 22 août :

amazon.com

quora.com

nytimes.com

Shutterstock.com

wikihow.com

cnn.com

foursquare.com

ligne santé.com

scribd.com

businessinsider.com

Reuters.com

Medicalnewstoday.com

amazon.fr

initié.com

votredictionnaire.com

slideshare.net

amazon.de

bloomberg.com

amazon.fr

studocu.com

ikea.com

uol.com.br

amazon.fr

geeksforgeeks.org

pcmag.com

theverge.com

nextdoor.com

amazon.ca

amazon.co.jp

airbnb.com

vautour.com

polygone.com

prnewswire.com

mashable.com

nymag.com

detik.com

theatlantic.com

trulia.com

amazon.es

mangeur.com

picclick.com

agitation.com

etymonline.com

enseignantspayteachers.com

archiveofourown.org

vox.com

kumparan.com

theathletic.com

amazon.it

alltrails.com

thrillist.com

amazon.com.br

usmagazine.com

pikiran-rakyat.com

city-data.com

bonjourmagazine.com

stern.de

chicagotribune.com

espagnoldict.com

lonelyplanet.com

inverse.com

actu.fr

imbécile.com

coursera.org

france24.com

myfitnesspal.com

dotesports.com

theglobeandmail.com

axios.com

A lire également