De grands sites Web comme Amazon et le New York Times bloquent de plus en plus le robot d’exploration Web GPTBot d’OpenAI.
- OpenAI a déclaré ce mois-ci qu’il utilisait son propre robot d’exploration Web pour collecter des données de formation pour ChatGPT.
- Il a promis de ne pas explorer les sites Web en déployant un outil Web vieux de plusieurs décennies, robot.txt.
- Certains des plus grands noms des médias et de la technologie, comme Reuters et Amazon, l’ont depuis déployé.
Des dizaines de grandes entreprises, dont Amazon et le New York Times, se sont précipitées pour bloquer GPTBot, un outil qu’OpenAI a récemment annoncé qu’il utilisait pour explorer le Web à la recherche de données qui seraient transmises à son chatbot populaire, ChatGPT.
Depuis cette semaine, 70 des 1 000 plus grands sites Web au monde ont décidé de bloquer GPTBot, le robot d’exploration Web OpenAI révélé il y a deux semaines était utilisé pour collecter d’énormes quantités d’informations sur Internet pour entraîner ChatGPT. Originality.ai, une société qui vérifie le contenu pour voir s’il est généré par l’IA ou s’il est plagié, a mené une analyse qui a révélé que plus de 15 % des 100 sites Web les plus populaires ont décidé de bloquer GPTBot au cours des deux dernières semaines.
Les six plus grands sites Web bloquant désormais le robot sont amazon.com (ainsi que plusieurs de ses homologues internationaux), nytimes.com, cnn.com, wikihow.com, Shutterstock.com et quora.com.
Les 100 principaux sites bloquant GPTBot incluent bloomberg.com, scribd.com et reuters.com, ainsi que insider.com et businessinsider.com. Parmi les 1 000 principaux sites bloquant le robot figurent ikea.com, airbnb.com, nextdoor.com, nymag.com, theatlantic.com, axios.com, usmagazine.com, lonelyplanet.com et coursera.org.
« GPTBot a été lancé il y a 14 jours et le pourcentage des 1 000 premiers sites le bloquant n’a cessé d’augmenter », indique l’analyse.
La façon dont ces sites Web bloquent GPTBot est relativement simple, voire grossière, selon votre point de vue. Les sites incluent un fichier appelé robots.txt, et GPTBot a été ajouté à sa liste « interdire ».
Robots.txt est un outil créé dans les années 1990 destiné à empêcher les robots d’exploration Web, tels que les robots de recherche de Google ou de Bing, d’extraire des données et des informations d’un site Web. Lors de la révélation du robot d’exploration, OpenAI a déclaré qu’il respecterait le fichier robots.txt et que GPTBot n’explorerait pas les sites Web qui le déploient.
Une grande partie de ce qui est disponible sur Internet, en particulier les textes et les images, est techniquement protégé par le droit d’auteur. Les robots d’exploration comme GPTBot ne demandent pas d’autorisation, de licence ou ne paient pas pour utiliser les données ou informations qu’ils extraient. La seule façon de les éviter à ce stade est d’utiliser le fichier robots.txt, bien que les entreprises qui déploient des robots d’exploration ne soient pas légalement tenues de reconnaître les restrictions du fichier robots.txt.
Il y a une prise de conscience croissante des règles de droit d’auteur et de la propriété des données que ces robots utilisent pour former des projets d’IA basés sur de grands modèles de langage, ou LLM, à mesure que des outils comme ChatGPT ont explosé sur la scène technologique. Plusieurs procès sont déjà en cours. L’auteur Stephen King, après avoir appris que ses livres ont été utilisés dans des programmes de formation en IA, a déclaré qu’il regardait l’avenir avec une « certaine fascination terrible ».
Pour sa part, OpenAI a tenté de cacher que ChatGPT avait été formé sur tout matériel protégé par le droit d’auteur.
Un représentant d’OpenAI n’a pas pu être contacté dans l’immédiat pour commenter.
Voir ci-dessous la liste complète des plus grands sites Web à avoir bloqué GPTBot entre le 8 et le 22 août :
amazon.com
quora.com
nytimes.com
Shutterstock.com
wikihow.com
cnn.com
foursquare.com
ligne santé.com
scribd.com
businessinsider.com
Reuters.com
Medicalnewstoday.com
amazon.fr
initié.com
votredictionnaire.com
slideshare.net
amazon.de
bloomberg.com
amazon.fr
studocu.com
ikea.com
uol.com.br
amazon.fr
geeksforgeeks.org
pcmag.com
theverge.com
nextdoor.com
amazon.ca
amazon.co.jp
airbnb.com
vautour.com
polygone.com
prnewswire.com
mashable.com
nymag.com
detik.com
theatlantic.com
trulia.com
amazon.es
mangeur.com
picclick.com
agitation.com
etymonline.com
enseignantspayteachers.com
archiveofourown.org
vox.com
kumparan.com
theathletic.com
amazon.it
alltrails.com
thrillist.com
amazon.com.br
usmagazine.com
pikiran-rakyat.com
city-data.com
bonjourmagazine.com
stern.de
chicagotribune.com
espagnoldict.com
lonelyplanet.com
inverse.com
actu.fr
imbécile.com
coursera.org
france24.com
myfitnesspal.com
dotesports.com
theglobeandmail.com
axios.com