港中大贾佳亚团队联合MIT发布全球首个70B长文本大语言模型
深圳特区报记者 闻坤
2023-10-09 17:51

记者10月9日获悉,香港中文大学贾佳亚带领的研究团队,近日联同美国麻省理工学院(MIT)团队,发布革命性超长文本扩展技术LongLoRA,大大扩展大语言模型的上下文窗口,允许模型考虑和处理较长的文本序列,首次解决全球大语言模型对话缺陷。

过往,以人工智能领域著名的开源大语言模型为例,LLaMa支持2k tokens的文本长度、Llama2也仅仅支持4k tokens的文本长度。透过LongLoRA,只需要两行代码以及一台8卡A100机器,便可以将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens,意味数十页论文、数百页报告以至鸿篇巨制,不再成为大模型盲区。研究团队亦基于LongLoRA技术,同步发布全球首个拥有70B参数量的长文本对话大语言模型LongAlpaca。

目前,LongLoRA技术和LongAlpaca已开源,并大获用家欢迎,迅速登上Hugging Face热榜第一名、Paperwithcode热度第一名、Github全部Python项目热度第五名,并在Github Stars一周内破千。

贾佳亚是香港中文大学终身教授、电气与电子工程师协会(IEEE)会士,计算器视觉、人工智能与计算器影像学等领域顶尖专家,全球计算器视觉和人工智能领域顶级期刊《TPAMI》首位视觉领域华人副主编、《IJCV》编委,拥有广泛的国际影响力。贾博士在2019年创立思谋科技,是粤港澳大湾区有名的独角兽公司,专注于智能制造领域的标准软硬一体化产品及解决方案。

(原标题《港中大贾佳亚联合团队发布全球首个70B长文本大语言模型》)

编辑 刘悦凌 审读 刘春生 二审 张克 三审 陈晨

(作者:深圳特区报记者 闻坤)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页