海天瑞声拟定增募资不超7.9亿元 投向AI大模型训练数据集建设等项目|热推荐
时间:2023-06-21 22:43:31
海天瑞声(688787)6月21日晚间公告,拟定增募资不超亿元,用于投资AI大模型训练数据集建设项目、数据生产垂直大模型研发项目。
公告显示,海天瑞声主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,用软件形式向客户交付。
本次募集资金两项投资项目,将全部围绕海天瑞声主营业务展开。
(资料图片)
其中,AI大模型训练数据集建设项目是通过建设应用于通用和特定垂直领域的AI大模型训练数据集,提升行业内面向大模型训练数据集的类别和质量。
公开资料显示,虽然中国数据资源丰富,但由于数据挖掘不足,以及大量数据无法在市场上自由流通等原因,优质中文数据集仍然稀缺。
以ChatGPT为例,其模型训练数据中,中文数据来源不足千分之一。目前,国内头部科技企业主要基于公开数据集以及自身特有的数据进行大模型训练,但由于中文优质数据质量以及数据资源的制约,国内大模型的能力与以ChatGPT为代表的国际大模型相比仍存在一定差距。
而在本项目建成后,将提供可供大模型训练和评测的不少于10个品类的专业数据集,显著提升行业内面向大模型训练数据集的类别和质量,协助实现公共数据、社会数据等各类高价值数据资源汇聚,实现基于大模型通用能力和垂直领域数据的训练学习。
海天瑞声表示,将基于过往的数据服务经验,结合行业前沿需求,积极拓展大模型训练数据服务领域,力争将大模型训练数据等创新业务打造成为具有潜在高增长价值的新型业务板块。
此外,截至2022年底,海天瑞声累计服务客户数量已达到810家,包括阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等全球主流企业、教育科研机构以及政企机构。
海天瑞声的存量客户与新业务的客户重合程度较高,且存量客户群中的部分头部企业已输出或计划输出其大模型产品与服务,为公司该项新业务拓展提供了客户资源基础。
根据德勤数据,2022年中国人工智能基础数据服务市场规模为45亿元,2027年规模将达到130-160亿元,年复合增长率为%-%。
数据生产垂直大模型研发项目建设目标则是通过大模型基础研究,研发海天瑞声数据生产垂直大模型,并以海天瑞声数据生产垂直大模型为核心,升级海天瑞声一体化技术支撑平台。
公告称,数据集生产能力和一体化技术支撑平台是海天瑞声核心技术的重要体现。目前 ChatGPT等模型执行通用生成任务的效果证明了大模型可具备数据生成能力。
本项目的建设将基于海天瑞声在深度学习阶段数据集生产所积累的know-how,自主研发数据生产垂直大模型,构建大模型数据处理技术通用化解决方案能力,实现完整、可持续迭代的大模型数据技术框架和数据策略,进一步提高公司在人工智能基础数据服务领域的智能化水平。
海天瑞声表示,本次募集资金投资项目是公司在现有主营业务基础上,结合市场需求和未来发展趋势,加大对公司核心主业重点产品及重要研究方向投资力度的体现,符合国家大力支持人工智能发展的产业政策以及公司整体战略发展方向。
(文章来源:证券时报·e公司)
相关稿件
海天瑞声拟定增募资不超7.9亿元 投向AI大模型训练数据集建设等项目|热推荐
看到钟丽缇当初竞选“港姐”的照片,才明白为啥张伦硕坚持要娶她
TA:两家沙特俱乐部对奥多伊感兴趣,切尔西愿意听取报价|当前资讯
当前速读:加快产业集群联动 广州市南沙区预制菜产业协会揭牌成立
每日播报!单县浮龙湖衔接乡村振兴集中推进区实现“绿富美”的蝶变
今日A股共76只个股发生大宗交易,特宝生物溢价率19.62%居首
双随机检查下罚单“凛冽” 又有头部被罚 检查涉45家券商300篇研报 还有多少罚单在途?|每日短讯
6月89款游戏获版号 网易《烟云十六声》、莉莉丝《远光84》等产品获批_报道
中央指导组与国家能源局召开联席会议,重点聚焦9方面问题 世界时快讯
新版“拆家致负”:拆二代遇上房企爆雷,房没了,钱也没了 天天视点
环球热点!被举报与他人有不正当关系的气象局局长发声:无稽之谈,身正不怕影子斜
直通巴黎残奥会!中国女篮34-57不敌荷兰队,获得世锦赛银牌
今日最新!济南:到2025年,中心城区公交站500米覆盖率达100%
百余名考生摸老师光头解压,寓意“中考不用愁”,当事老师回应:没感觉被冒犯 当前最新