百度百科屏蔽谷歌必应等搜索引擎,疑为防止内容被用于AI训练
更新时间:2024-11-13 10:13:04 浏览次数:+次据报道,百度百科近日采取措施,屏蔽了谷歌、必应等大多数搜索引擎的抓取权限。这一举动可能是为了防止这些搜索引擎和其他爬虫未经授权地抓取百度百科内容,并用于训练人工智能模型。
根据百度百科的robots.txt文件显示,目前仅有少数几个搜索引擎如百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)被允许继续抓取其内容。相比之下,谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他非白名单爬虫均被明确禁止访问百度百科的数据。
虽然360搜索未被单独列入封禁列表,但百度百科的策略是封锁一切不在白名单内的爬虫,因此360搜索等其他搜索引擎也被屏蔽。
尽管百度百科采取了这些措施,但业内人士指出,这种方法只能防止大部分合法的爬虫抓取,无法完全阻止那些通过特殊手段绕过限制的小型爬虫继续获取内容并用于AI训练。