llms.txt 和 robots.txt 有什么区别和联系?
在所有关于 llms.txt 的讨论里,最容易混淆的就是它和 robots.txt 的关系。两者看上去都放在站点根目录,也都面向“机器读取”,但其实解决的是两类完全不同的问题。
最核心的区别可以概括为一句话:
robots.txt 管访问边界,llms.txt 管内容理解;robots.txt 用来告知自动化工具哪些访问是可接受的;llms.txt 用来向 LLM 提供背景说明、阅读指引和高价值链接。
robots.txt像是网站的“保安”,它的里面写满了 Allow(允许)和 Disallow(拒绝)的指令。它站在网站的大门口,硬性规定外来的爬虫(无论是百度、谷歌,还是 OpenAI 的爬虫),哪些公开区域可以进,哪些私密区域(如后台接口、用户隐私页)绝对不能进。
它是防御性的、强制性的,正规的爬虫必须遵守它的规则。

llms.txt则更像是网站的“导游”,它不管谁能进、谁不能进。当一个友好的 AI 爬虫经过了“保安”的允许,进入了你的网站,llms.txt 就会像导游一样迎上去,递上一份精简的纯文本宣传册。
它告诉 AI:“既然你进来了,别费劲去扒网页的复杂结构了,我们最核心的背景介绍、产品文档都在这里,重点看这几项。”
它是建议性的、服务性的。
作为网站开发者,你甚至可以在 robots.txt 文件里加一行注释,主动给 AI 爬虫指路:
# robots.txt 示例 User-agent: * Allow: / # 告诉 AI 爬虫我们的极简说明书在哪里 LLMs-txt: https://yourdomain.com/llms.txt
这样,就实现了“保安指路,导游接待”的完美业务闭环。







请先 登录后发表评论 ~