OpenAI lance le webcrawler GPTBot et des instructions pour le bloquer
OpenAI a lancé un robot d'exploration Web pour améliorer les modèles d'intelligence artificielle comme GPT-4.
Appelé GPTBot, le système parcourt Internet pour former et améliorer les capacités de l'IA. L'utilisation de GPTBot a le potentiel d'améliorer les modèles d'IA existants en ce qui concerne des aspects tels que la précision et la sécurité, selon un article de blog d'OpenAI.
"Les pages Web analysées avec l'agent utilisateur GPTBot peuvent potentiellement être utilisées pour améliorer les modèles futurs et sont filtrées pour supprimer les sources qui nécessitent un accès au paywall, sont connues pour collecter des informations personnellement identifiables (PII) ou contiennent du texte qui enfreint nos politiques", lit-on dans le rapport. poste.
Les sites Web peuvent toutefois choisir de restreindre l’accès au robot d’exploration Web et d’empêcher GPTBot d’accéder à leurs sites, soit partiellement, soit en se désinscrivant totalement. OpenAI a déclaré que les opérateurs de sites Web peuvent interdire le robot d'exploration en bloquant son adresse IP ou le fichier Robots.txt d'un site.
Auparavant, OpenAI avait atterri dans une situation délicate en raison de la manière dont il collectait les données et pour des raisons telles que la violation du droit d'auteur et la violation de la vie privée. En juin dernier, la plateforme d'IA a été poursuivie pour « vol » de données personnelles afin de former ChatGPT.
Ses fonctions de désinscription n'ont été mises en œuvre que récemment, avec des fonctionnalités telles que la désactivation de l'historique des discussions permettant aux utilisateurs de mieux contrôler les données personnelles accessibles.
ChatGPT 3.5 et 4 ont été formés sur des données et des textes en ligne datant de septembre 2021. Il n'existe actuellement aucun moyen de supprimer le contenu de cet ensemble de données.
Selon OpenAI, vous pouvez interdire GPTBot en l'ajoutant au Robots.txt de votre site, qui est essentiellement un fichier texte qui indique aux robots d'exploration Web ce à quoi ils peuvent ou ne peuvent pas accéder à partir d'un site Web.
Vous pouvez également personnaliser les parties qu'un robot d'exploration Web peut utiliser, en autorisant certaines pages et en en interdisant d'autres.
SujetsIntelligence artificielleChatGPT
