AI Bots aussperren
Wer selbst Inhalte im Internet publiziert, möchte eventuell nicht, dass diese von den AI Web Crawlern zum Trainieren von LLMs etc. eingesammelt werden. Viele haben diese Crawler deshalb ausgesperrt. Wer dies noch nicht hat und möchte, findet hier eine entsprechende Anleitung da zu.
Webcrawler
Diese sind unter verschiedenen Namen bekannt: Searchbot, Robot, Bot, Crawler, Webcrawler. Eines haben sie aber alle gemeinsam: Sie durchsuchen das Internet nach Webseiten und analysieren diese. Je nach Zweck des Crawlers suchen sie unterschiedliche Inhalte, angefangen von E-Mail-Adressen bis hin zu Webfeeds, Fotos, Videos. Allerdings werden sie auch von Suchmaschinen zur Indexierung verwendet.
Normalerweise setzen Webcrawler den HTTP User Agent und sind darüber eindeutig identifizierbar.
KI Bots per robots.txt blockieren
Die robots.txt
bildet den Robots Exclusion Standard ab. Dieser ist in RFC 9309 beschrieben und definiert ein Dateiformat für Webserver, um Bots mitzuteilen, ob sie willkommen sind, oder nicht. Diese Datei liegt im Root der jeweiligen Webseite bzw. muss dort abgelegt werden.
Idealerweise liest ein Webcrawler beim Auffinden einer Website diese Datei aus (sofern sie vorhanden ist). Ist er nicht erwünscht, verlässt er diese Seite wieder, ohne sie zu durchsuchen.
Wenn man nun also weiß, wie sich bestimmte Webcrawler bekannt machen, können diese ausgeschlossen werden:
User-agent: anthropic-aiDisallow: /
Dies kann man nun für alle bekannten Webcrawler tun.
Da natürlich ständig neue Webcrawler hinzukommen, oder sich Namen ändern, muss die Datei entsprechend gepflegt werden. Hierzu gibt es Listen, die laufend gepflegt werden. Unter anderem block-ai-robots.
KI Bots per .htaccess blockieren
Nun halten sich nicht alle Webcrawler an das, was die robots.txt
vorgibt und analysieren eine Webseite auch dann, wenn sie blockiert werden. Dazu muss man mit schweren Geschützen auffahren.
Mit der .htaccess
Datei können Webserver bezüglich Zugriffe konfiguriert werden. Damit können alle NCSA-kompatiblen Webserver (zum Beispiel der bei Webhostern sehr verbreitete Apache) umgehen. Mit Hilfe dieser Datei können unter anderem Routen (Weiterleitungen) definiert, aber auch Zugriffe erlaubt, oder eben auch verboten werden.
Das bedeutet, dass man die in der robots.txt
definierte Sperre auch über den Webserver forcieren kann bzw. ihnen eben nur diese Datei erlaubt:
RewriteEngine onRewriteCond %{HTTP_USER_AGENT} (anthropic\-ai)RewriteRule !^/?robots\.txt$ - [F,L]
Webcrawler, die den HTTP User Agent nicht setzen, sind schwer zu erkennen. Oftmals geben Sie sich als ganz normaler Browser zu erkennen. Der Webserver kann nun nicht unterscheiden, ob es sich um eine surfende Person handelt, oder eben um einen Webcrawler.
In einigen Fällen sind die IP-Adressen bzw. IP-Adressbereiche von Webcrawlern bekannt. So ist es möglich, überhaupt die IP-Adressen am Webserver zu sperren. Hier ein Beispiel für OpenAI ChatGPT:
Order Allow,Deny# OpenAI ChatGPT - https://platform.openai.com/docs/plugins/bot/ip-egress-rangesDeny from 23.98.142.176/28Deny from 40.84.180.224/28Deny from 13.65.240.240/28Deny from 20.97.189.96/28Deny from 20.161.75.208/28Deny from 52.225.75.208/28Deny from 52.156.77.144/28Deny from 40.84.180.64/28Allow from all
Generell empfiehlt es sich, bei IP-Sperren jedoch vorsichtig zu sein. Tippfehler können sehr schnell, einen weit größeren Bereich aussperren, oftmals teilen sich aber auch gewünschte und unerwünschte Webcrawler den gleichen IP-Bereich.
Eine Vorlage hierfür gibt es ebenfalls unter block-ai-robots.
Hast du weitere hilfreiche Informationen zu diesem Thema, freue ich mich über eine Kontaktaufnahme oder einen Kommentar.
#KI #Webcrawler #Webserver