#RobotsTxt

2026-01-26

[Перевод] Тихая смерть robots.txt

Десятки лет robots.txt управлял поведением веб-краулеров. Но сегодня, когда беспринципные ИИ-компании стремятся к получению всё больших объёмов данных, базовый общественный договор веба начинает разваливаться на части. В течение трёх десятков лет крошечный текстовый файл удерживал Интернет от падения в хаос. Этот файл не имел никакого конкретного юридического или технического веса, и даже был не особо сложным. Он представляет собой скреплённый рукопожатием договор между первопроходцами Интернета о том, что они уважают пожелания друг друга и строят Интернет так, чтобы от этого выигрывали все. Это мини-конституция Интернета, записанная в коде. Файл называется robots.txt; обычно он находится по адресу вашвебсайт.com/robots.txt . Этот файл позволяет любому, кто владеет сайтом, будь то мелкий кулинарный блог или многонациональная корпорация, сообщить вебу, что на нём разрешено, а что нет. Какие поисковые движки могут индексировать ваш сайт? Какие архивные проекты могут скачивать и сохранять версии страницы? Могут ли конкуренты отслеживать ваши страницы? Вы сами решаете и объявляете об этом вебу. Эта система неидеальна, но она работает. Ну, или, по крайней мере, работала. Десятки лет основной целью robots.txt были поисковые движки; владелец позволял выполнять скрейпинг, а в ответ они обещали привести на сайт пользователей. Сегодня это уравнение изменилось из-за ИИ: компании всего мира используют сайты и их данные для коллекционирования огромных датасетов обучающих данных, чтобы создавать модели и продукты, которые могут вообще не признавать существование первоисточников. Файл robots.txt работает по принципу «ты — мне, я — тебе», но у очень многих людей сложилось впечатление, что ИИ-компании любят только брать. Cегодня в ИИ вбухано так много денег, а технологический прогресс идёт вперёд так быстро, что многие владельцы сайтов за ним не поспевают. И фундаментальный договор, лежащий в основе robots.txt и веба в целом, возможно, тоже утрачивает свою силу.

habr.com/ru/companies/ruvds/ar

#robotstxt #вебкраулер #crawling #openai #ruvds_перевод

2026-01-24

Robots.txt Generator - Retro Terminal Edition - Mehr als 200 Bots in der kostenfreien Version. Pures HTML, Javascript und ein bisschen CSS. Keine Third Parties, kein Framework, kein CDN, keine Cookies, kein Tracking, keine Werbung, kein BigTech-Gedönse, keine KI, sehr datenschutzfreundlich. Simple und effektiv im Retro-Style. Demnächst online.

#teufelswerk #HTML #javascript #app #entwicklung #code #retro #css #robotstxt #generator #stopbots #bots #crawler #scraper #keineKI #cookieless #datenschutz

Screenshot vom Robots.txt Generator in der Retro Terminal Edition. Zu sehen ist die Suchmaske für die Botsuche, die Allow und Disallow Eingabefelder zum Setzen von entsprechenden Regeln sowie ein Teil der Bots, die in die Robos.txt mit eingebunden werden können.
Frontend Dogmafrontenddogma@mas.to
2026-01-22

Generative AI, by @christianliebel and @yash-vekaria.bsky.social and others (@httparchive.org):

almanac.httparchive.org/en/202

#webalmanac #studies #research #metrics #ai #robotstxt #llmstxt

Layar Kosongfrijal
2026-01-20

Panduan memahami tiga opsi Cloudflare untuk konfigurasi robots.txt: Content Signals Policy, Instruct AI bots to not scrape, dan Disable configuration. Pelajari cara memberi instruksi pada AI crawler.

dalam.web.id/artikel/cloudflar

2026-01-18

contentsignals.org is a nice idea, but if my reading of RFC 9309 is correct, it might lead to agent-specific blocks being ineffective for bots that don't recognise content signals, because in case of multiple sections of robots.txt matching, the "allow" rules take precedence over the "disallow" rules.

#robotsTxt

Leonardo Di OttioLeonardoDiOttio
2026-01-12

@piccalilli My (admittedly cynical) assumption is that they will still hoover up anything they can find on your site, they’re just no longer showing it to anyone outside Google.

No robots.txt file? Apparently Google won't index your site anymore: alanwsmith.com/en/37/wa/jz/s1/

#webdesign #robotstxt

2026-01-04

AI crawler đang phớt lờ robots.txt, phá vỡ thỏa thuận hợp tác của web. Việc thực thi nghiêm ngặt có thể làm tổn hại đến tính mở của Internet, tạo ra một thế khó.

#AI #WebDevelopment #RobotsTxt #PhátTriểnWeb #Internet #CôngNghệ

reddit.com/r/programming/comme

Mikel - Covivienda rural Bioketamikels@masto.es
2026-01-01

🌐🌿 Sustainable web practices:

Disallowing web crawlers? Only allowing the most 2-3 sustainable web crawlers? Only getting visitors from direct recommendations? Is editing robots.txt enough?

What do you think?

#noBot #noBigTech #searchEngine #AICrawler #robotsTxt #sustainability #lowTech #solarPunk #slowWeb #smallWeb

👉 Retrouve les configurations pour mes 15 services (WordPress, Mastodon, Gitea...) ici : 🔗 wiki.blablalinux.be/fr/gestion

C'est cadeau, c'est du partage, et c'est sur le Wiki ! 🐧🚀

#BlablaLinux #SysAdmin #SelfHosted #NPM #RobotsTxt #OpenSource #LogicielLibre

2025-12-17

Robots.txt has had a good 30+ year run, but it's time to realize that it's not just losing relevance, it's dying. AI companies ultimately are what killed it.

plagiarismtoday.com/2025/12/17

#Copyright #DMCA #AI #RobotsTXT #Scraping

2025-12-17

@juergen_hubert Crawlers and scrapers and fetchers! Oh my! - Dorothy (allegedly)

got dark visitors ? #RobotsTXT #DarkVisitors darkvisitors.com/

Le site de Korbenkorben.info@web.brid.gy
2025-12-15

Comment bloquer les crawlers IA qui pillent votre site sans vous demander la permission ?

fed.brid.gy/r/https://korben.i

<p>Vous en avez marre de voir GPTBot, ClaudeBot et toute la bande de crawlers IA se servir sur votre site comme dans un buffet à volonté ? Perso, j&rsquo;utilise Cloudflare qui propose des options pour ça directement mais tout le monde n&rsquo;utilise pas ce service. Du coup ce projet
<a href="https://github.com/ai-robots-txt/ai.robots.txt">ai.robots.txt</a>
est super pratique pour ceux qui gèrent leur propre serveur et qui veulent reprendre le contrôle sur ce qui se fait aspirer.</p>
<p>L&rsquo;idée c&rsquo;est de maintenir sur Github une liste exhaustive de tous les crawlers liés à l&rsquo;IA, que ce soit pour entraîner des modèles ou alimenter des moteurs de recherche IA. On y retrouve les suspects habituels comme GPTBot (OpenAI), Claude-Web (Anthropic), Google-Extended, meta-externalagent, mais aussi des trucs plus obscurs comme img2dataset ou laion-huggingface-processor qui servent à aspirer des images.</p>
<img alt="" src="https://korben.info/cdn-cgi/image/width=1200,fit=scale-down,quality=90,f=avif/bloquer-crawlers-ia-robots-txt-htaccess-nginx/bloquer-crawlers-ia-robots-txt-htaccess-nginx-2.png" />
<p>Le truc cool, c&rsquo;est que le projet ne se contente pas juste de fournir un robots.txt à copier-coller. Y&rsquo;a aussi des fichiers de config prêts à l&rsquo;emploi pour Apache (.htaccess), Nginx, Caddy et même HAProxy. Du coup vous pouvez carrément renvoyer une erreur HTTP aux crawlers au lieu de juste leur dire &ldquo;non&rdquo; poliment via robots.txt (qu&rsquo;ils
2025-12-14

snacのrobots.txt

さくらのナレッジに軽量ActivityPub Server のsnac についての記事を寄稿しました. さくらインターネットのさくらのナレッジにsnacの記事を寄稿 – matoken’s blog ここに書かなかったsnac のことをいくつか書いていこうと思います. 今日はsnac でのrobots.txt について. […]

matoken.org/blog/2025/12/14/sn

susie64 cool
Jörg Seidellostgen@det.social
2025-12-12

@chpietsch
It's not bad. Just a missed opportunity to manipulate them
@clock

#robotstxt

Christian Peachchpietsch@fedifreu.de
2025-12-12

@lostgen @clock

Serving bad content to misbehaving crawlers puts them at a disadvantage compared to crawlers that follow the rules. So I incentivize following the rules I put down in #robotstxt.

Le site de Korbenkorben.info@web.brid.gy
2025-12-11

RSL 1.0 - L'heure pour les IA, de passer à la caisse, a sonné

fed.brid.gy/r/https://korben.i

<p>On vit une époque formidable (non), car d&rsquo;un côté,
<a href="https://www.theregister.com/2025/12/08/publishers_say_no_ai_scrapers">5,6 millions de sites web bloquent maintenant le GPTBot d&rsquo;OpenAI</a>
,
<a href="https://www.cloudflare.com/press/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/">5,8 millions bloquent ClaudeBot</a>
alors que de l&rsquo;autre côté, ce sont
<a href="https://www.webpronews.com/cloudflares-2025-robots-txt-update-blocks-ai-scraping-adds-pay-per-crawl/">13,26% des bots IA qui se contrefoutent royalement des robots.txt</a>
. Les webmasters sont tous en PLS, et plantent des pancartes &ldquo;<em>Propriété privée - IA interdit</em>&rdquo; partout&hellip; Mais je vous le donne en mille Émile, ça ne sert strictement à rien !</p>
<p>Il y a quand même des gens très intelligents qui se penchent sur le sujet et hier, c&rsquo;est un nouveau standard qui vient de sortir pour dire stop à cette comédie ! Cela s&rsquo;appelle
<a href="https://rslstandard.org/press/rsl-1-specification-2025">Really Simple Licensing (RSL) 1.0</a>
et ça propose quelque chose de radical : Arrêter de bloquer, et commencer à facturer ! Miam !</p>
<p>Concrètement, c&rsquo;est un petit fichier texte pour passer du fuck-off à la négociation commerciale. Car oui on le sait, le problème avec le robots.txt, c&rsquo;est que c&rsquo;est comme demander poliment à des cambrioleurs de ne pas rentrer chez vous. Ça marchait en 1994 quand le web étai

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst