为什么 AI 爬取性很重要
你的内容写得再好,AI 系统访问不到就等于白费。我见过不少写得认真、研究充分的文章,因为基本的爬取问题被 ChatGPT 和 Perplexity 完全忽略。
AI 搜索引擎用爬虫访问你的网站。爬虫读取页面、提取内容、用来生成回答。如果网站屏蔽了爬虫或者有技术障碍,内容根本不会被索引。
这个问题比你想的普遍。我测试了 30 个网站,一半至少有一个影响 AI 可见性的爬取问题。最常见的问题是 robots.txt 配置错误和 sitemap 缺失。
AI 爬虫和传统爬虫的区别
AI 爬虫和 Googlebot 工作方式类似,但优先级不同:
- GPTBot:OpenAI 的训练数据爬虫,和 ChatGPT Search 是两个系统
- OAI-SearchBot:专门给 ChatGPT Search 提供结果的爬虫
- ClaudeBot:Anthropic 训练 Claude 模型用的爬虫
- PerplexityBot:Perplexity 实时搜索用的爬虫
关键区别:训练爬虫和搜索爬虫是两套系统。屏蔽训练爬虫不影响搜索可见性,反过来也一样。很多网站主不知道这个区别,把所有 AI 爬虫都屏蔽了。
robots.txt 配置
你的 robots.txt 是爬虫首先检查的文件。它告诉爬虫哪些页面可以访问,哪些要跳过。
标准配置:
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
常见错误:用 Disallow: / 屏蔽了所有爬虫,或者不小心屏蔽了某个 AI 爬虫。还有些网站用了非标准的指令,爬虫看不懂就直接跳过了。
如果你只想屏蔽训练爬虫,允许搜索爬虫,可以这样配置:
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
Sitemap 优化
sitemap.xml 帮助爬虫发现你的重要页面。确保包含所有公开内容页,排除搜索页、标签页和 404 页。把 sitemap URL 写在 robots.txt 里。
Sitemap 的格式是标准 XML,所有爬虫都能识别。不需要专门为 AI 爬虫创建特殊的 sitemap。
检查你的 sitemap 是否有效:在浏览器中打开 yoursite.com/sitemap-index.xml,看看是否能正常访问。如果返回 404 或 500 错误,爬虫也读不到。
服务器配置
检查服务器日志,看 AI 爬虫的请求是否返回 200 状态码。如果返回 403 或 404,说明配置有问题。
Cloudflare 的防火墙规则可能误拦 AI 爬虫。检查 WAF 日志,看看是否有 GPTBot、PerplexityBot 被拦截的记录。如果有,需要在防火墙规则中添加白名单。
服务器响应时间也很重要。如果服务器处理请求太慢,爬虫可能超时。目标是服务器响应时间低于 200 毫秒。
常见问题
屏蔽 GPTBot 会影响 ChatGPT 搜索吗? 不会。GPTBot 是训练爬虫,ChatGPT Search 用的是 OAI-SearchBot。你可以屏蔽训练爬虫,同时允许搜索爬虫。
CDN 会影响爬取吗? 可能。Cloudflare 的缓存和防火墙规则需要正确配置。确保 AI 爬虫的 User-Agent 不在屏蔽列表里。缓存静态资源没问题,但动态内容需要正确配置。
怎么检查爬虫是否能正常访问? 查看服务器日志中的 User-Agent 字段,搜索 GPTBot、PerplexityBot 等。如果看到 200 状态码,说明没问题。如果看到 403 或 404,需要检查配置。
需要为 AI 爬虫做特殊配置吗? 基本不需要。正确的 robots.txt 和 sitemap 就够了。AI 爬虫遵循标准的爬取协议,和 Googlebot 类似。
详细的配置指南和排错方法:AI 爬取性完整指南