首页 > 资讯评论

今热点:MosaicML 推出 300 亿参数模型,训练成本 70 万

来源:OSCHINA 时间:2023-06-25 01:25:55


(相关资料图)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

相关稿件

今热点:MosaicML 推出 300 亿参数模型,训练成本 70 万

世界最资讯丨教你制作最简单的手工风筝 ,带孩子去放风筝吧

内饰迎调整,新款星途凌云官图发布

尚太科技:二季度应用于储能电池的负极材料出货量处于爬坡阶段-天天快资讯

积分问题及解决方法_积分问题

观焦点:党建引领促共建 端午“粽”情暖民心

当前消息!拉丁文数字在电脑上怎么输入_拉丁文数字

储备价值近亿元物资 湖北做好汛期应急保障工作-独家焦点

每日热闻!高温橙色预警!京津冀鲁等地或再挑战40℃

世界看热讯:农村籍高校毕业生的就业选择,有何特点?

运河水系发生今年第1号洪水|世界微资讯

瓦格纳创始人被诉武装叛乱,俄国民警卫队中央区军官进入紧急状态

英特尔g4560处理器怎么样_g4560处理器怎么样 环球信息

观察:民宿管家、外卖运营师……这些新职业扩宽就业空间

全球观点:现代汽车将出售两家在华工厂|第一财经汽车日评

亚布力大熊猫饱餐定制粽子 虎林园17只萌虎与游客见面

珍珠鸡和土鸡相比哪个比较好_珍珠鸡多少钱一只-每日速讯

上海:留学生相聚朱家角古镇过端午

黄晓明唱的闹太套是什么歌_闹太套黄晓明-天天动态

【科普】成都上空惊现不明飞行物?学者称→

洗衣机龙头怎么选_洗衣机龙头

免责声明有法律效力吗_免责声明_世界热议

2023年1-4月中国饮料产量为5706.3万吨 华南地区产量最高(占比24.1%) 天天播报

《风暴之城》销量突破50万份 全面更新补丁即将发布

环球快消息!太平洋证券交易手续费介绍_太平洋证券交易手续费

浙江龙游发生5车追尾事故,致6人死亡

山东前5月年度投资计划完成过半

炖羊肉三放三不放_煮羊肉最香的香料配方

天天观热点:瞬间的近义词是什么标准答案_瞬间的近义词

天天时讯:打造“果旅融合”新路径 小小百香果成为“致富果”“幸福果”