国产大模型厂商“寻数有路”,深圳数据交易所发布500个垂直行业多模态算料集
深圳特区报记者 邹媛
04-12 21:35

深圳特区报

深圳市委机关报,改革开放的窗口

在近日举办的“数·算·网”融合发展暨粤港澳大湾区(南山·前海)算力服务联盟第一期交流研讨会上,深圳数据交易所(以下简称“深数所”)发布了500个垂直行业多模态算料集,按照大模型应用的不同阶段(训练、推理、调优),有的放矢地提供数据源,让国产大模型厂商“寻数有路”。

此次深数所发布的首批500个人工智能大模型高质量训练数据集,由37家不同的数据商提供,涵盖12个“数据要素×”领域,3家境外数据商,7类数据模态(文本、图像、音频、视频、多模态、3D、GIS等)。且本批数据集首次汇聚了来自中国气象局、中国知网、中译语通、万邦同和、微梦数据(新浪微博)、前海数据、海天瑞声、拓尔思、数据堂、智慧芽、网智天元、柏川数据、深信科技等数据商的数据集作为大模型算料。其中大部分算料为全国首发。

深数所人工智能行业主管王吴越表示,数据作为一个高效的“乘法”因子,能够与不同行业结合,显著提升行业的生产效率或创新能力,而人工智能技术则通过“加法”方式为传统产业带来渐进式的改进和优化,两者相互交织,共同成为数字经济发展的双翼。

“数据都是零散的,国产大模型厂商无法实现批量采集数据,我们此次推出的算料集就是,将大模型需要的训练数据进行逻辑的汇聚,从而形成了一个大模型训练数据产业高地。”深数所人工智能行业主管王吴越告诉记者,目前,人工智能和数字经济的领域存在数据荒的问题,特别是在多模态数据、中文数据、中国文化、中国价值观数据等领域,深数所按照大模型应用的不同阶段(训练、推理、调优)提供数据源,让国产大模型厂商“寻数有路”。

王吴越表示,目前,深数所已经构建了数据资源价值发现智能体,能够利用大语言模型的涌现能力,借助CoT、RAG、Few Shot等技巧,将数据商内部未经治理的、复杂的4000余个字段快速深度挖掘,识别列举出32个数据应用场景及价值变现途径,提效90%。

(受访者供图)

编辑 李斌 审读 张雪松 二审 党毅浩 三审 周国和

(作者:深圳特区报记者 邹媛)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页