500道题目、对标接受过高等教育的人类水平、更强调对产业和生活的实际价值,严格按基础能力指数、智商指数、情商指数、工具提效指数四大测评维度进行权重设计……8月12日,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》(以下简称《报告》),讯飞星火以总分1013分位列本次国产主流大模型测评榜首位,在四大评测维度中的智商指数和工具提效指数两个维度获得第一,《报告》认为讯飞星火“在工作提效方面优势明显”。
《报告》认为,具有7大核心能力(即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力)的讯飞星火认知大模型拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。
面对国产大模型“涌现”,讯飞星火认知大模型从立项到发布,再到迭代升级,每个节点都紧锣密鼓:5月6日发布讯飞星火认知大模型及其在教育、办公、汽车、数字员工等领域的应用落地;6月9日突破开放式问答,并在数学能力和多轮对话能力上迭代升级;即将到来的8月15日会在代码能力上实现重大突破,并在多模态交互能力上升级;10月24日对标ChatGPT,实现中文超越、英文相当的水平。
在智商评估方面,《报告》认为,人类在智商方面仍然具有明显优势。课题组分别从常识知识(20%)、逻辑能力(50%)和专业知识(30%)方面对大模型进行考量,结果显示,讯飞星火排名第一。
在工作效率提升方面,《报告》认为, AI对人类提供了有力的支持,AI的处理速度远远超过人类。然而,尽管AI具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。课题组重点在工具提效(50%)和生成创新(50%)方面进行考量,结果显示,讯飞星火以350分排名第一并遥遥领先。
《报告》认为,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。虽然在不同领域中,AI和人类表现出不同的优劣势,但在整体上,AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。
(原标题《新华社研究院AI大模型体验报告出炉:讯飞星火智商指数和工具提效指数第一》)
编辑 刘悦凌 审读 吴剑林 二审 郑蔚珩 三审 詹婉容
读特热榜
IN视频
鹏友圈
分享深圳初夏美好瞬间,赢读特积分好礼! 深圳的初夏是一幅流动的影像诗,每一帧都充满了生机与美好,阳光斑驳,绿叶轻摇,每一个瞬间都如诗如画。快来鹏友圈带话题#初夏的影像诗#和大家晒晒你记录的深圳初夏瞬间,和鹏友们定格这一份美好,赢读特积分好礼! 【本期话题】#初夏的影像诗# 【活动时间】即日起至5月20日 【活动礼品】读特积分 【参与方式】在鹏友圈带话题#初夏的影像诗#分享深圳初夏的美好瞬间,即可获得读特积分。每分享一条相关动态即送50读特积分!积分累计,多发多得!注意:仅发布不相关的图片、文字、短视频均不送积分,相同内容动态不累计赠送积分 【兑换方式】活动结束后我们将在15个工作日内将积分充值到您的读特账户,请你注意及时查收~
招聘兼职“拍车头照+挪车电话”,5毛一条!可能泄露个人隐私信息! 在兼职平台搜索发现拍车头的兼职,工作内容为拍摄车头照,拍1个车头和一个挪车号码为一组,一组0.5元。 获取了车主手机号、车牌号、车辆品牌等信息后,即可通过手机号查询车主个人征信情况,进行精准推销,这样泄露个人信息太可怕了!
在吉祥航空直播间购买449元次卡兑换时发现完全是饥饿营销,每个航班只有三张可换机票。直播间一直说不用可退,却故意不提兑换后不退不改,即使消费者兑换后未享受服务需要取消兑换退票也被强硬驳回。
小天才电话手表越来越像手机,小孩平均每天玩手表接近2小时。儿童智能手表功能日益“强大”拍照、美颜、加好友发朋友圈⋯⋯最初定位为“安全”的儿童智能手表现在“卷”起了配置与功能,变得越来越像手机,小孩玩手表的时间越来越长,为了手表,每天和小孩“斗智斗勇”
#初夏的影像诗#昨天在罗湖万象城见到了黄景瑜,确认过眼神,他是这个夏天我最见过最靓的仔😄😋😍当然还有我家附近的绿意盎然,和钢筋混领土配蓝天之美,都是这个夏天不可缺一的影像,深圳真美😘😍🥰
- 友情链接: 深圳新闻网
- 粤ICP备10228864号
- 粤公网安备 44030402000917号
- Copyright @1997-2023 深圳特区报社