我为什么这样说呢,起因是我昨天上线了一个博客网站,还在试用中,只放了几篇文章。后来无意中在网站的日志中看到当晚和第二天就有OpenAI的爬虫访问记录。
127.0.0.1 - - [18/Jun/2025:08:36:22 +0800] "GET /blog/tag/us-china-relations HTTP/1.0" 200 5437 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”
这个网站没有提交给任何搜索引擎,也没分享过,只是在推文中分享了2篇文章的链接。
为什么OpenAI的爬虫能反应如此迅速?
唯一能解释的就是它一直在爬取Twitter的内容,扫描到了我的链接,然后把网站给索引了。
这个事引起了我的兴趣,于是把Twitter的爬虫规则 https://x.com/robots.txt 下载来看了一下,发现一些很有意思的东西。
Twitter的爬虫规则是一个非常强硬的规则。
它采用的是一种“白名单”(Whitelist)策略,而不是常见的“黑名单”(Blacklist)策略。这表明 Twitter 高度控制其内容的访问权限,只有它允许的机器人才能访问它指定的内容。
首先它为 Google 的主要爬虫 Googlebot 量身定制了一些规则,允许 Google 抓取以下内容:
Allow: /*?lang=: 允许抓取任何带有 lang= 参数的 URL。例如,一个用户的个人主页的法语版 (/elonmusk?lang=fr)。这对于国际化SEO至关重要,确保 Google 能索引到 Twitter 的多语言版本。
Allow: /hashtag/*?src=: 允许抓取带 src= 参数的话题标签(Hashtag)页面。这表明 Twitter 希望话题页能被 Google 索引,src 参数可能用于追踪流量来源,但允许抓取意味着这些页面是公开内容的一部分。
Allow: /search?q=%23: 允许抓取搜索结果中以 # (URL编码为 %23) 开头的页面,也就是话题标签的搜索结果。这是公众发现热门话题的重要途径。
Allow: /i/api/:允许抓取其内部 API 的某些路径。这可能用于支持某些公开内容的展示,例如嵌入式推文(Tweet embeds)或其他需要通过 API 获取公开数据的功能,让 Google 能够正确渲染和理解这些内容。
禁止 Google 抓取特定类型的搜索页面:
realtime (实时搜索): 内容变化太快,对于搜索引擎索引来说会耗费大量抓取资源。
users (用户搜索): 可能涉及隐私,且结果页面价值较低。
/grid (网格视图): 这只是内容的另一种展现形式,禁止抓取可以避免与标准列表视图产生重复内容,优化了抓取效率。
禁止抓取任何带有查询参数(?后面的部分)的 URL: Disallow: /*?
禁止 Google 抓取那些更新频繁、或者可能涉及用户关系隐私的页面:
followers / following (关注者/正在关注列表): 这些页面涉及个人兴趣。
likes / retweets (点赞/转推列表): 与上面同理,这些动态列表非常个性化。
likes (用户的点赞标签页): 用户点赞的内容集合。
media / photo (用户的媒体/图片标签页): 禁止抓取这些多媒体内容,如图片。
所以,Twitter 对 Google 搜索引擎爬虫的策略是:开放核心内容(推文、个人主页、话题),但屏蔽所有辅助性的、动态的、重复的或私隐的页面,以最大化SEO效果和抓取效率。
针对其他特定机器人的规则
这是整个文件中最具战略意义的部分:
Google-Extended: 这是 Google 用于其 AI 产品(如 Vertex AI)的爬虫。
Disallow: * 表示明确禁止 Google 使用 Twitter 的公开数据来训练其 AI 模型。这是一个非常强硬的姿态,反映了内容平台方对 AI 抓取数据的担忧。
FacebookBot / facebookexternalhit / Discordbot: 这些是 Facebook 和 Discord 用于生成链接预览(link previews/embeds)的爬虫。 禁止它们抓取,意味着当你在这些平台分享一个 Twitter 链接时,它们不能通过抓取页面来生成预览。相反,它们必须依赖 Twitter 通过 Open Graph 等元数据标签提供的官方预览信息。这让 Twitter 完全控制其内容在其他平台上的呈现方式。
Bingbot: 这是微软必应(Bing)搜索引擎的爬虫。Disallow: * 意味着Twitter 完全阻止了 Bing 对其网站进行索引。这可能出于商业竞争、数据许可协议谈判,或者认为来自 Bing 的流量价值不高等多种原因。这是一个重大的商业决策。
针对所有其他机器人的规则
这是“白名单”策略的核心。告诉所有未在上面被特别提及的机器人(包括各种小型搜索引擎、数据分析工具、学术研究爬虫、恶意爬虫等):“请不要抓取我网站的任何内容”。
整个规则的核心
首先是控制与价值最大化,不是开放给所有人,而是有选择地与能带来最大价值的伙伴(主要是与 Google 搜索引擎)合作。
数据资产保护:明确禁止 AI 训练爬虫(如 Google-Extended)和竞争对手(如 Bing)访问其数据,将数据视为需要授权或许可的核心资产。
规则中没有针对OpenAI爬虫的规则,所以对它是完全禁止的。但看来OpenAI并没有理会规则。
评论 (0)
还没有评论,来说两句吧!