研究发现GitHub项目上超过310万颗假"星"被用来提高排名

站长云网 2025-01-01 5iter.com 站长云网

GitHub存在一个问题,那就是不真实的"星星"被用来人为提高诈骗软件和恶意软件分发软件仓库的受欢迎程度,使其看起来更受欢迎,从而帮助它们接触到更多毫无戒心的用户。

"星星"类似于社交媒体网站上的"赞"按钮,允许GitHub用户收藏某个软件源。GitHub将星星作为全球排名系统的一部分,并向你展示它认为你可能喜欢的相关内容。

"你可以给仓库和主题加星,以便在GitHub上发现类似的项目。"GitHub解释说。


拥有408000个星的顶级仓库

这个问题以前就有记录,比如去年夏天,CheckPoint揭露了一个名为"StargazersGhostNetwork"的恶意软件交付服务,该服务利用一个由不真实用户组成的广泛网络,在虚假项目上加星,以推送窃取信息的恶意软件。

非恶意项目也会利用虚假明星来提升人气、扩大影响范围,并吸引合法用户的关注、真正的明星和采用。Socket、卡内基梅隆大学和北卡罗来纳州立大学的研究人员进行了一项新的研究,发现GitHub上有450万颗星被怀疑是假的,这让我们对问题的规模有了更清楚的认识。


GitHub的星级服务列表

寻找假星

研究人员开发并使用了一种名为"StarScout"的工具,对来自"GHArchive"的20TB数据进行分析,以找出不真实的星星。

GHArchive包含2019年7月至2024年10月期间超过60亿次GitHub事件的元数据,其中包括3.1亿个版本库和6.1亿颗星上的6050万次用户操作。

StarScout能检测出在GitHub上活动极少的用户(如在单个版本库上加星)、具有僵尸或临时账户活动模式的用户,以及协调行动的账户组(如在短时间内加星相同的版本库)。

他们的方法基于CopyCatch算法,该算法旨在检测社交网络中的欺诈模式。


StarScout数据处理概览

450万颗星星被怀疑是假的

在应用低活跃度和锁定签名算法处理数据以识别各资源库中的可疑明星后,研究小组在22915个资源库中发现了由1320000个账户提供的4530000个疑似不真实的明星。

为了提高对这些明星真实性的可信度,研究人员只考虑了单月明星活动出现明显异常峰值,且假星比例高于明星总数10%的资源库,从而过滤掉了潜在的误报。

这样,结果就减少到15835个素材库的278000个账户提供的3100000颗假星。


聚类行为等虚假模式的识别

截至2024年10月,其中约91%的资源库和62%的疑似不真实账户已被删除,这证明了StarScout工具的准确性。

研究还显示,假冒明星的活动在2024年激增,在2024年7月拥有超过50个明星的资源库中,约有15.8%参与了这些恶意活动。

研究人员报告了StarScout在2024年7月发现的不真实软件源和账户,GitHub将其全部删除。不过,他们仍在评估和报告2024年11月发现的其他群集。


伪造星级资源库(已删除和存在)的词云

伪造星级对GitHub及其用户的影响是多方面的,但总的来说,这个问题会削弱人们对该平台及其上托管的各种软件项目的信任。

用户应抛开星级,评估版本库的活动和质量,阅读文档,检查内容和贡献,并尽可能审查代码。

欺骗性的GitHub存储库比比皆是,该平台甚至被利用于国家支持的行动,因此在从该平台下载软件时一定要谨慎。

责任编辑:站长云网