首页 > 社会万象

MosaicML 推出 300 亿参数模型,训练成本 70 万

来源:OSCHINA 时间:2023-06-24 18:13:43


(相关资料图)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

相关稿件

MosaicML 推出 300 亿参数模型,训练成本 70 万

昆仑万维创始人前妻套现“补贴”公司 深交所发问是否在操纵股价

【世界时快讯】1平方米等于多少面积_1平方米等于多少米

聊一聊RISC-V的二三事 世界快讯

ovf文件怎么打开_ove文件怎么打开

鸡蛋的作用是什么?吃鸡蛋有哪些注意事项? 全球观热点

母狗什么时候才让人日_人咋叫母狗主动和人日

月经期间吃什么都不会胖是真的吗 月经期间吃什么

全球讯息:十字情话最暖心短句给男生 情话最暖心短句给男生

聚焦“四个破除” 解决民生痼疾-环球短讯

当前焦点!数字文明尼山对话:过去未去,未来已来!

FTC法庭外混乱现场:机密文件毫无保护的被拖到法庭

环球快讯:皮卡丘情侣头像真人_高清皮卡丘情侣头像

雷佳音吴越分获白玉兰最佳男女主角 热烈祝贺! 每日精选

我市举办普通干线公路养护技能大赛

海岳半岛城邦如何买房合算,海岳半岛城邦的房价现在多少钱一平?

沙西线会进行扩容改造吗?最新回应来了-天天滚动

世界今亮点!感悟文化韵味 厚植家国情怀(今日谈)

农业机械化有力保障夏粮收获 环球观速讯

水沼美美子介绍_水沼美美子

西藏养老金调整最新消息公布了没有(2022~2023年西藏养老金调整方案细则全文) 全球微头条

【世界独家】这些股票筹码大幅度集中

天天观察:今后3年,四大生肖如痴如醉,鸿运当头,天赐良缘

美国研究生留学一年需要花费多少钱呢

我为群众办实事 民警成功调解一起劳资纠纷 焦点报道

当前滚动:中央气象台发布今年首个高温橙色预警

信阳公安:做实社区警务 让违法犯罪无处遁藏

思仪科技科创板IPO申请获上交所终止审核 速看料

民生银行济南历山支行积极开展存款保险知识宣传-每日头条

牌照螺丝拆卸方法