人体3D模型网站遭OpenAI爬虫疯狂抓取引起瘫痪 类似某种DDoS攻击
搜索引擎或其他爬虫高频次抓取网站导致服务器瘫痪的案例并不少见,包括蓝点网在内的多个网站都曾遇到过这类爬虫引起网站无法正常访问。现在人工智能公司的爬虫替代搜索引擎成为整个互联网上抓取频率最高的爬虫,对某些网站来说如果没有规范设置robots.txt文件进行阻止那可能就会出现服务器瘫痪的情况。
例如最新的案例是乌克兰网站Trilegangers,该网站提供海量的人体3D模型数据供3D艺术家、视频游戏开发商以及任何需要以数字方式重新真实人类特征的人购买。
尽管该网站已经在使用协议里注明未经授权禁止抓取和使用网站的所有数据,但Trilegangers并未正确设置robots.txt文件阻止包括GPTBot在内的爬虫。
本周六该网站瘫痪并且症状类似于DDoS分布式拒绝服务攻击,经过检查后发现罪魁祸首是OpenAI用于抓取数据训练人工智能的GPTBot爬虫。
Trilegangers工作人员检查服务器日志后发现,OpenAI派出的GPTBot爬虫以600多个不同的IP地址发起数以万计的请求,这些并发请求直接让服务器无法处理流量导致瘫痪。
根据OpenAI公布的爬虫说明,如果网站不想被GBTBot爬虫抓取内容,则需要在robots.txt里使用规范命令进行阻止,Trilegangers网站并未设置该文件。
robots.txt属于行业的约定俗成并非法律规范,但即便没有设置robots.txt文件,GPTBot抓取数据再由OpenAI使用数据训练AI也是违法行为,因为Trilegangers网站本身已经禁止未经授权的使用。
另一方面Trilegangers使用AWS的服务器,由于GPTBot的疯狂抓取导致消耗的带宽和流量也在增加,因此Trilegangers也需要支付更高的服务器费用。
目前Trilegangers已经设置正确的robots.txt文件并通过Cloudflare阻止GPTBot和其他爬虫包括字节跳动的Bytespider爬虫的抓取,这应该可以临时解决问题。
踩一下[0]
顶一下[0]