尽管马斯克禁止OpenAI爬取Twitter的数据，OpenAI仍在偷偷爬

我为什么这样说呢，起因是我昨天上线了一个博客网站，还在试用中，只放了几篇文章。后来无意中在网站的日志中看到当晚和第二天就有OpenAI的爬虫访问记录。

127.0.0.1 - - [18/Jun/2025:08:36:22 +0800] "GET /blog/tag/us-china-relations HTTP/1.0" 200 5437 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)”

这个网站没有提交给任何搜索引擎，也没分享过，只是在推文中分享了2篇文章的链接。

为什么OpenAI的爬虫能反应如此迅速？

唯一能解释的就是它一直在爬取Twitter的内容，扫描到了我的链接，然后把网站给索引了。

这个事引起了我的兴趣，于是把Twitter的爬虫规则 https://x.com/robots.txt 下载来看了一下，发现一些很有意思的东西。

Twitter的爬虫规则是一个非常强硬的规则。

它采用的是一种“白名单”（Whitelist）策略，而不是常见的“黑名单”（Blacklist）策略。这表明 Twitter 高度控制其内容的访问权限，只有它允许的机器人才能访问它指定的内容。

首先它为 Google 的主要爬虫 Googlebot 量身定制了一些规则，允许 Google 抓取以下内容：

Allow: /*?lang=：允许抓取任何带有 lang= 参数的 URL。例如，一个用户的个人主页的法语版 (/elonmusk?lang=fr)。这对于国际化SEO至关重要，确保 Google 能索引到 Twitter 的多语言版本。

Allow: /hashtag/*?src=：允许抓取带 src= 参数的话题标签（Hashtag）页面。这表明 Twitter 希望话题页能被 Google 索引，src 参数可能用于追踪流量来源，但允许抓取意味着这些页面是公开内容的一部分。

Allow: /search?q=%23：允许抓取搜索结果中以 # (URL编码为 %23) 开头的页面，也就是话题标签的搜索结果。这是公众发现热门话题的重要途径。

Allow: /i/api/：允许抓取其内部 API 的某些路径。这可能用于支持某些公开内容的展示，例如嵌入式推文（Tweet embeds）或其他需要通过 API 获取公开数据的功能，让 Google 能够正确渲染和理解这些内容。

禁止 Google 抓取特定类型的搜索页面：

realtime (实时搜索)：内容变化太快，对于搜索引擎索引来说会耗费大量抓取资源。

users (用户搜索)：可能涉及隐私，且结果页面价值较低。

/grid (网格视图)：这只是内容的另一种展现形式，禁止抓取可以避免与标准列表视图产生重复内容，优化了抓取效率。

禁止抓取任何带有查询参数（?后面的部分）的 URL： Disallow: /*?

禁止 Google 抓取那些更新频繁、或者可能涉及用户关系隐私的页面：

followers / following (关注者/正在关注列表)：这些页面涉及个人兴趣。

likes / retweets (点赞/转推列表)：与上面同理，这些动态列表非常个性化。

likes (用户的点赞标签页)：用户点赞的内容集合。

media / photo (用户的媒体/图片标签页)：禁止抓取这些多媒体内容，如图片。

所以，Twitter 对 Google 搜索引擎爬虫的策略是：开放核心内容（推文、个人主页、话题），但屏蔽所有辅助性的、动态的、重复的或私隐的页面，以最大化SEO效果和抓取效率。

针对其他特定机器人的规则

这是整个文件中最具战略意义的部分：

Google-Extended: 这是 Google 用于其 AI 产品（如 Vertex AI）的爬虫。

Disallow: * 表示明确禁止 Google 使用 Twitter 的公开数据来训练其 AI 模型。这是一个非常强硬的姿态，反映了内容平台方对 AI 抓取数据的担忧。

FacebookBot / facebookexternalhit / Discordbot: 这些是 Facebook 和 Discord 用于生成链接预览（link previews/embeds）的爬虫。禁止它们抓取，意味着当你在这些平台分享一个 Twitter 链接时，它们不能通过抓取页面来生成预览。相反，它们必须依赖 Twitter 通过 Open Graph 等元数据标签提供的官方预览信息。这让 Twitter 完全控制其内容在其他平台上的呈现方式。

Bingbot: 这是微软必应（Bing）搜索引擎的爬虫。Disallow: * 意味着Twitter 完全阻止了 Bing 对其网站进行索引。这可能出于商业竞争、数据许可协议谈判，或者认为来自 Bing 的流量价值不高等多种原因。这是一个重大的商业决策。

针对所有其他机器人的规则

这是“白名单”策略的核心。告诉所有未在上面被特别提及的机器人（包括各种小型搜索引擎、数据分析工具、学术研究爬虫、恶意爬虫等）：“请不要抓取我网站的任何内容”。

整个规则的核心

首先是控制与价值最大化，不是开放给所有人，而是有选择地与能带来最大价值的伙伴（主要是与 Google 搜索引擎）合作。

数据资产保护：明确禁止 AI 训练爬虫（如 Google-Extended）和竞争对手（如 Bing）访问其数据，将数据视为需要授权或许可的核心资产。

规则中没有针对OpenAI爬虫的规则，所以对它是完全禁止的。但看来OpenAI并没有理会规则。

文章摘要

文章揭示OpenAI无视Twitter的爬虫规则，仍秘密爬取数据，分析Twitter对不同爬虫的策略，强调其对数据的保护与价值分配。

尽管马斯克禁止OpenAI爬取Twitter的数据，OpenAI仍在偷偷爬

Twitter的爬虫规则是一个非常强硬的规则。