32K上下文,Mistral 7B v0.2基模型突然开源了

站长云网 2024-03-24 站长云网

刚刚,MistralAI的模型又更新了。这次开源一如既往的“突然”,是在一个叫做CerebralValley的黑客松活动上公布的。PPT一翻页,全场都举起了手机拍照:



这次开源的Mistral7Bv0.2BaseModel,是Mistral-7B-Instruct-v0.2背后的原始预训练模型,后者属于该公司的“MistralTiny”系列。

此次更新主要包括三个方面:

将8K上下文提到了32K;

RopeTheta=1e6;

取消滑动窗口。


下载链接:https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar…

更新之后的性能对比是这样的:


场外观众迅速跟进。有人评价说:“Mistral7B已经是同尺寸级别中最好的模型,这次改进是一个巨大的进步。我将尽快在这个模型上重新训练当前的许多微调。”


MistralAI的第一个7B模型发布于2023年9月,在多个基准测试中实现了优于Llama213B的好成绩,让MistralAI一下子就打出了知名度。

这也导致目前很多开源大模型都已不再对标Llama2,而是将MistralAI旗下的各系列模型作为直接竞争对手。

而Mistral7Bv0.2BaseModel对应的指令调优版本Mistral-7B-Instruct-v0.2在2023年12月就已开放测试,据官方博客介绍,该模型仅适用于英语,在MT-Bench上能够获得7.6分的成绩,逊于GPT-3.5。

此次开放基础模型之后,开发者们就可以根据自己的需求对这个“当前最好的7B模型”进行微调了。

不过,7B模型只能算是MistralAI众多惊艳成果中的一项。这家公司的长远目标是对标OpenAI。

上个月底,MistralAI正式发布了“旗舰级”大模型MistralLarge。与此前的一系列模型不同,这一版本性能更强,体量更大,直接对标OpenAI的GPT-4。随着MistralLarge上线,MistralAI推出了名为LeChat的聊天助手,也实现了对标ChatGPT。

而新模型的发布,也伴随着公司大方向的一次转型。人们发现,MistralLarge并不是一个开源大模型——有跑分、API和应用,就是不像往常一样有GitHub或是下载链接。

与MistralLarge发布同时发生的,是MistralAI与微软达成了长期合作的协议,不仅会将MistralLarge引入Azure,还收获了微软1600万美元的投资。

MistralAI对路透社表示,作为交易的一部分,微软将持有该公司少数股权,但未透露细节。未来,二者的合作主要集中在三个核心领域:

超算基础设施:微软将通过AzureAI超级计算基础设施支持MistralAI,为MistralAI旗舰模型的AI训练和推理工作负载提供一流的性能和规模;

市场推广:微软和MistralAI将通过AzureAIStudio和Azure机器学习模型目录中的模型即服务(MaaS)向客户提供MistralAI的高级模型。除OpenAI模型外,模型目录还提供了多种开源和商业模型。

人工智能研发:微软和MistralAI将探索为特定客户训练特定目的模型的合作。

当被问及公司是否正在改变其开源商业模式时,MistralAI联合创始人ArthurMensch在采访中表示:“我们从开源模式开始,任何人都可以免费部署,因为这是广泛分发它们并创造需求的一种方式。但从一开始,我们就提供了一种具有优化模型的商业模式,这让使该公司能够为模型开发所需的昂贵研究提供资金。”

参考链接:https://twitter.com/MistralAILabs/status/1771670765521281370

首届中国具身智能大会(CEAI2024)即将于2024年3月30日至31日在上海徐汇西岸美高梅酒店举行。

本次大会由中国人工智能学会(CAAI)主办,CAAI具身智能专委会(筹)、同济大学、中国科学院计算技术研究所、上海交通大学、中国经济信息社上海总部联合承办,全球高校人工智能学术联盟协办,机器之心独家AI媒体合作。

盛会将为具身智能领域的学术与产业界搭建一个交流合作的顶级平台,以广泛促进学术分享与交流、产业合作与互动,推动产学研联动发展,提升我国具身智能技术的研究与应用水平。

责任编辑:站长云网