字节跳动新爬虫比OpenAI机器人快25倍 面临美国监管审查

站长云网 2024-10-05 BiaNews鞭牛士 站长云网

10月4日消息,据外电报道,TikTok的母公司字节跳动正在加大训练生成式AI模型的力度,推出了一款新的网页抓取工具。据报道,这款名为Bytespider的机器人于4月推出,现已成为最活跃的网页抓取工具之一。

机器人管理公司Kasada和机器人监控公司DarkVisitors的研究显示,字节跳动的Bytespider抓取网络数据的速度比OpenAI用于ChatGPT平台的网络抓取工具GPTbot快25倍。它的抓取速度也比Anthropic用于其Claude平台的抓取工具ClaudeBot快3000倍。

抓取狂潮

据《财富》报道,自首次亮相以来,Bytespider的活动只增不减,过去六周内抓取量明显飙升。

字节跳动似乎正试图快速收集尽可能多的数据,以赶上Google、Meta和OpenAI等其他科技巨头,这些公司都使用网络爬虫收集大量在线数据来训练他们的大型语言和多模态模型(LLM或LMM)。

然而,与其他人工智能公司使用的一样,字节跳动的抓取工具并不遵守robots.txt文件,该文件旨在向抓取工具发出信号,避免从特定网站获取数据。

尽管robots.txt不具有法律强制力,但对它的忽视引发了争议,因为网络抓取通常被视为侵犯版权,特别是在用于训练人工智能模型时。

由于生成式人工智能工具严重依赖网络数据来运作,因此抓取数据已成为一个有争议的问题,许多个人和组织认为他们的作品被无偿复制。这种做法已经存在了几十年,主要针对搜索引擎,但人工智能的兴起带来了新的法律和道德问题。

字节跳动的AI努力

字节跳动积极抓取数据之际,该公司正受到严格审查,尤其是在美国。美国总统乔·拜登已签署立法,要求字节跳动出售TikTok或将其关闭,理由是出于国家安全考虑。

尽管如此,字节跳动似乎决心提升其人工智能能力。

字节跳动的抓取狂潮表明该公司正在开发一种新的大型语言模型。今年早些时候的报道表明,字节跳动在生成式人工智能竞赛中落后,甚至依赖OpenAI来帮助建立自己的模型,此举违反了OpenAI的服务条款。

2023年初,字节跳动推出了基于聊天的LLM项目Duabo,但该模型的开发在最近的数据收集工作之前就完成了。

字节跳动新AI项目的一个潜在应用是改进TikTok的搜索功能。TikTok最近更新了其搜索功能,专注于广告关键词,让广告商可以实时定位热门词汇。借助基于最新网络数据训练的更强大的AI模型,TikTok可以进一步增强其搜索功能,为目前依赖Google的广告商创造更具竞争力的环境。

快速的数据收集和人工智能的进步表明,字节跳动不仅渴望迎头赶上,而且有可能重塑搜索和人工智能的格局,尤其是在TikTok庞大的用户群的背景下。

如果成功,这些努力可能会让TikTok的搜索环境对希望通过精准、数据驱动的关键词和趋势吸引更多受众的广告商具有极大的吸引力。

责任编辑:站长云网