Me apunto para revisar Dark Visitors, una pĂĄgina web que enumera agentes de usuario relacionados con scrapers y bots que se dedican a robar contenido de pĂĄginas web para alimentar inteligencias artificiales. En la lista completa se muestran agentes como Bytespider, el de TikTok, o GPTBot, el agente principal usado por OpenAI.
A travĂ©s de Hacker News tambiĂ©n leo a Cory proponiendo bloquear este tipo de bots metiĂ©ndolos en el robots.txt. En algunas de mis webs ya tengo bloqueados algunos bots en el robots.txt, pero esta lista me servirĂĄ para ponerla al dĂa. Sin embargo, me pregunto cuĂĄl de estas soluciones es realmente mĂĄs efectiva.
Por un lado, podrĂamos poner este tipo de bots en el robots.txt y asumir que lo van a respetar. robots.txt es un sistema de honor. Realmente no hay nada que impida a un bot ignorar el robots.txt e igualmente hacer scrapping de la pĂĄgina web para extraer su contenido.
Pero a la vez, por el otro, optarĂa por una soluciĂłn que asuma que el bot va a ser malĂ©volo y va a ignorar una peticiĂłn de no escaneo del sitio web. Para esas situaciones, se podrĂa optar por banear la IP del sitio web a nivel firewall. Esta es una soluciĂłn que tengo implementada en mi servidor, por ejemplo, para algunos productos de inteligencia artificial que sĂ enumeran las direcciones IP que usan para hacer el escaneo. OpenAI las enumera, por ejemplo.
Por Ășltimo, otra opciĂłn que se me ocurre es tirar por la vĂa de la confusiĂłn. Detectar en el servidor web cuĂĄndo una peticiĂłn procede de un user-agent asociado a un bot, y en vez de servir un HTTP 403 o de tirar abajo la conexiĂłn mediante el firewall, servir en su lugar otra pĂĄgina web diferente con el cĂłdigo HTTP 200, para que el bot lo interprete como una pĂĄgina correcta, pero servir informaciĂłn falsa para contaminar el dataset. Estoy pensando en una pĂĄgina en blanco que tenga un par de frases como «los cerdos vuelan y las vacas dan chocolate», pero podrĂa proponer burradas mĂĄs grandes que puedan hacer daño.