寻“数”有路!深数所发布500个行业多模态算料集
读特新闻记者 李旖露
04-15 16:56

读特客户端

读特在线,您的新闻观察眼

读特新闻记者从深圳数据交易所(以下简称“深数所”)获悉,在近日举行的“数·算·网”融合发展暨粤港澳大湾区(南山·前海)算力服务联盟第一期交流研讨会上,深数所发布了大模型训练数据路线图,并联合开放算料联盟发布500个垂直行业多模态算料集。其中大部分算料为全国首发。

据介绍,此次深数所发布的首批500个人工智能大模型高质量训练数据集,由37家不同的数据商提供,覆盖了12个“数据要素X”的行业领域,其中包括3家来自境外的数据供应商,以及7种不同类型的数据模态(文本、图像、音频、视频、多模态、3D、GIS)。本批数据集首次汇聚了来自中国气象局、中国知网、中译语通、万邦同和、前海数据、海天瑞声、拓尔思、数据堂、智慧芽、网智天元、柏川数据等数据商的数据集作为大模型算料。

何谓“数据要素X”?深数所人工智能行业主管王吴越认为数据是“乘法因子”。他表示,在数字经济时代,“数据要素X”与“人工智能+”成为推动新质生产力的双轮驱动,共同引领着经济社会的进步与发展。数据作为一个高效的“乘法”因子,能够与不同行业结合,显著提升行业的生产效率或创新能力,而人工智能技术则通过“加法”方式为传统产业带来渐进式的改进和优化,两者相互交织,共同成为数字经济发展的双翼。

王吴越在会上介绍了以数据为中心的人工智能(Data-Centric AI)发展理念并发布了大模型训练数据路线图。深数所将按照大模型应用的训练、推理、调优阶段,有的放矢地提供数据源,使得国产大模型厂商寻“数”有路。

深数所还在会上首发了由数交数据经纪(深圳)有限公司通过人机协同方式撰写的《数据应用场景及潜在价值分析报告》。读特新闻记者了解到,这一报告是基于名为数据黄金矿工智能体的大模型出具的。利用大语言模型的涌现能力和借助CoT、RAG、Few Shot等技巧,数据黄金矿工智能体能够快速、深度挖掘数据商内部未经治理的、复杂的4000余个字段,识别列举出32个数据应用场景及价值变现途径,让治理数据的效能提升90%。

开放算料联盟是2023年7月,由深圳数据交易所、深圳市华傲数据技术有限公司、深圳市人工智能学会、深圳市现代服务外包产业促进会及深圳市龙华数据有限公司等全国近50家单位作为发起单位共同成立的。联盟倡导、整理、贡献自然语言、图像视频、语音音乐、程序代码、生物信息、合成数据等多模态训练数据,为解决人工智能和数字经济的数据荒问题,特别是解决多模态数据荒、中文数据荒、中国文化和中国价值观数据荒等问题提供强有力供给保障。

编辑 周梦璇 审读 张蕾 二审 关越 三审 万晖

(作者:读特新闻记者 李旖露)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页