首页 > 焦点资讯

MosaicML 推出 300 亿参数模型,训练成本 70 万

来源:OSCHINA 时间:2023-06-25 05:13:29


(资料图片)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

相关稿件

MosaicML 推出 300 亿参数模型,训练成本 70 万

一问“医”答丨高温热浪又双叒叕来了!如何防护?

环球实时:2023河北高考专科分数线公布: 492

世界热头条丨巅峰极速新手怎么快速获取新车 新车快速获取攻略

诈病赚曹爽简介_曹爽简介

叙州区横江义兴小学:建学生成长银行 促学生五育发展

武则天几个儿子_武则天儿子 讯息

烟丝是什么(烟丝是什么植物类别)

【全球新视野】南京民办校、公办热点校电脑派位举行,南外摇中率98.9%!

黑羽卡组强吗_黑羽卡组_世界观热点

天风证券给予恒力石化买入评级,拟分拆康辉新材上市,发展迈入新阶段_最新消息

热点聚焦:巴拿马运河因干旱限制通行船舶吨位 或推高国际原材料市场价格

城市安全系列科普 | 防患于未“燃” 方能和“气”生财 新要闻

考考你:海洋中的鲸鱼会不会被晒伤 神奇海洋6.25答案最新

回路图怎么画_回路 天天热头条

【环球时快讯】取保候审能申请几次

循环小数的点怎么打出来_循环小数的点怎么打

宋有洪 当前信息

节理裂缝什么意思_节理和裂隙的区别_天天热门

古力娜扎曾遭换脸视频威胁勒索:不给钱就毁了你! 世界热推荐

快资讯:FIBA3x3官推晒文班姐姐打球视频:我们最喜欢的文班打3x3

天天热议:甲基是什么结构_甲基是什么

19集改编纯败笔-世界视点

天天头条:光库科技、铖昌科技等14股获陆股通增仓超100%

最泰安组图 | 高温持续“发力”,难阻游客进山“纳凉”热情! 当前热讯

全球今头条!画师收藏馆|科幻概念插画欣赏 By加拿大插画家:Raphael 2023年6月24日

普京下令平息叛乱 瓦格纳指挥官受刑事调查_世界通讯

全球今热点:保护知识产权激发创新活力

2023端午档票房破9亿-全球动态

厦门今起三天闷热潮湿 局部多雷阵雨-每日简讯