研究：近一半热门新闻网站屏蔽了 OpenAI 爬虫

2 月 27 日消息，一项由路透社研究所进行的研究表明，截至 2023 年底，全球 10 个国家的热门新闻网站中，近一半 (48%) 屏蔽了 OpenAI 的爬虫（Crawler），而近四分之一 (24%) 屏蔽了谷歌的 AI 爬虫。

据IT之家了解，该研究所分析了包括纽约时报、BuzzFeed 新闻、华尔街日报、华盛顿邮报、CNN 和 NPR 在内的 15 家覆盖面最广的网络新闻来源的 robots.txt 文件。这些新闻机构来自德国、印度、西班牙、英国和美国等国家，涵盖传统印刷媒体、电视广播公司和数字原生媒体等三种类型。

研究发现，截至 2023 年底，超过一半 (57%) 的传统印刷媒体网站，例如《纽约时报》，屏蔽了 OpenAI 的爬虫，相比之下，电视和广播公司为 48%，数字原生媒体为 31%。同样，32% 的印刷媒体网站屏蔽了谷歌的爬虫，而广播公司和数字原生媒体的比例分别为 19% 和 17%。

与此同时，康奈尔大学最近的一项研究发现，当新型人工智能模型仅使用先前模型而非人类输入的数据进行训练时，它们往往会陷入“模型崩溃”或退化，导致生成内容出现更多错误和误导信息。

网站爬虫被用于多种目的。例如，谷歌的 Googlebot 会抓取发布商网站，将其收录到搜索结果中。而 OpenAI 的爬虫 GPTBot 则会在互联网上收集数据，用于训练其大型语言模型，例如 ChatGPT。这使人工智能工具能够生成准确、实时的内容，而新闻发布商尤其擅长提供此类内容：大型语言模型对优质出版商内容的重视程度是其他来源内容的 5 到 100 倍。

该研究还指出，全球北方（Global North，指大多位于北美、欧洲和其他地区的更富裕国家）国家的新闻机构比全球南方（Global South，一般是指包括非洲、拉丁美洲和加勒比地区、太平洋岛屿以及亚洲的发展中国家）国家更倾向于屏蔽人工智能爬虫。例如，在美国，79% 的热门在线新闻网站屏蔽了 OpenAI，而在墨西哥和波兰，这一比例仅为 20%。与此同时，德国 60% 的新闻网站屏蔽了谷歌的爬虫，而在波兰和西班牙，这一比例仅为 7%。

研究发现，几乎所有屏蔽谷歌爬虫的网站也屏蔽了 OpenAI (97%)。虽然该研究没有提供确切解释，但这可能表明 OpenAI 比谷歌更早发布爬虫有关。

值得注意的是，在大多数国家，一些发布商在爬虫刚发布时就立即屏蔽了它们。OpenAI 于去年 8 月初启动了其人工智能爬虫，谷歌随后于 9 月份效仿。研究还表明，一旦做出屏蔽决定后，没有一家网站撤销对 OpenAI 或谷歌人工智能爬虫的屏蔽。