DeepMind为人工智能聊天机器人开发了"事实核查器"以治愈幻觉
人工智能聊天机器人最受人诟病的行为之一就是所谓的幻觉,即人工智能在令人信服地回答问题的同时,却向你提供了与事实不符的信息。简单地说,就是人工智能为了满足用户的需求而胡编乱造。
在使用生成式人工智能创建图片或视频的工具中,这就不是一个问题了。最后,最近才从OpenAI离职的知名专家安德烈-卡尔帕西(AndrejKarpathy)竟然说,产生幻觉的现象是生成式人工智能的底层技术--大型语言模型(LLM)的最大特点。
但是,在以文本为重点、基于LLM的聊天机器人中,用户希望所提供的信息与事实相符,因此幻觉是绝对不允许出现的。
防止人工智能产生幻觉是一项技术挑战,而且并非易事。不过,据Marktechpost报道,GoogleDeepMind和斯坦福大学似乎找到了某种变通办法。
研究人员提出了一种基于LLM的系统--"搜索增强事实性评估器"(Search-AugmentedFactualityEvaluator,简称SAFE),它可以对人工智能聊天机器人生成的长格式回复进行事实检查。他们的研究成果连同所有实验代码和数据集已作为预印本发表在arXiv上。
系统通过四个步骤对答案进行分析、处理和评估,以验证其准确性和真实性。首先,SAFE将答案分割成单个事实,对其进行修改,并与Google搜索结果进行比较。系统还会检查各个事实与原始问题的相关性。
为了评估SAFE的性能,研究人员创建了一个包含约16,000个事实的数据集LongFact。然后,他们在四个不同系列(Claude、Gemini、GPT、PaLM-2)的13个LLM中测试了该系统。在72%的情况下,SAFE提供了与人类注释者相同的结果。在存在分歧的情况下,SAFE的正确率为76%。
此外,研究人员还声称,使用SAFE的成本比人工注释员或事实检查员低20倍,因此提供了一个经济可行的解决方案,而且可以大规模应用。
踩一下[0]
顶一下[0]