让泰勒·斯威夫特唱周杰伦的歌?来自深圳龙岗港中大团队的Amphion音频生成火了!
深圳特区报记者 罗实宜 文/图
2023-12-21 22:11

深圳特区报

深圳市委机关报,改革开放的窗口

近日,香港中文大学(深圳)数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion(安菲翁)。该系统旨在打造一个面向科研群体及刚进入或想要进入该领域的工程师的,集语音合成及转换、歌声合成及转换、音效及音乐生成等多功能为一体的开源平台。目前,该研究已经在海外社交平台上引发了极大的关注。

OpenMMLab 在 AI 领域无人不知,是目前最具国际影响力的计算机视觉开源算法体系,在 GitHub 上获得超过9万星标,用户遍及全球140个国家和地区。联合实验室团队推出了性能领先的千亿级参数大语言模型 “书生・浦语”(InternLM),并建设了首个面向大模型研发与应用的全链条开源体系。该团队的研究成果还包括社区内规模最大、覆盖领域最完整的大模型评测平台 OpenCompass,推理性能领先的大模型推理框架 LMDeploy 等。

“这是 OpenMMLab 第一次涉足音频与语音领域,相信这次开源会给多模态生成带来更多的想象空间。在没有公开宣传之前,Amphion 已经数次进入 GitHub Trending Repositories 榜单。可以说,Amphion 一出生就自带光环。”武执政表示。

武执政介绍,对很多人来说,“歌声转换” 这个词可能比较陌生,但是不少人都应该听说过今年爆火的 “AI 孙燕姿”。“AI 孙燕姿” 背后的技术正是歌声转换。通俗来讲,歌声转换技术就是通过 AI 技术,把一个人唱歌的声音音色转变得听起来像另外一个人的技术。这一过程通常牵涉到信号处理、机器学习、深度学习等算法。Amphion 系统集成了经典的特征提取模型。除了集成了经典的扩散模型、VITS 模型外,还集成了来自大名鼎鼎的 OpenAI 的 Whisper 模型。为了得到好的音质,Amphion 集成了 BigVGAN、HiFi-GAN、DiffWave 等主流声码器。同时,Amphion 的声码器还集成了港中大(深圳)的最新成果。

根据Amphion 的技术报告显示,在客观指标和主观指标上,Amphion 均达到乃至超越了当前最受关注的开源系统的水平。

Amphion 的技术报告的客观指标显示,Amphion 在 TTA 任务上达到了领先的技术水平。与传统的语音、音频开源工具不同,Amphion 提供了可视化功能。Amphion 团队希望可视化功能能让初学者更好地理解模型的原理和细节。目前,Amphion 团队提供了扩散模型的可视化截图。该功能通过扩散模型在歌声转换上的可视化,形象地呈现出一位歌手模仿另外一位歌手的渐变过程。

新闻+

Amphion 团队

武执政博士现任香港中文大学(深圳)副教授。他曾入选国家级青年人才,连续多次入选斯坦福大学 “全球前 2%顶尖科学家”、爱思唯尔 “中国高被引学者” 榜单。他于 2015 年获得南洋理工大学博士学位,并先后在 Meta(原 Facebook)、京东、苹果、爱丁堡大学、微软亚洲研究院等多个机构从事学术研究和技术领导工作。武执政博士带领开发了语音合成开源系统 Merlin,发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测,并组织了 2019 年语音合成国际评测(Blizzard Challenge 2019),曾获得 INTERSPEECH 2016 最佳学生论文奖、2012 年亚太信号与信息处理协会年度峰会最佳论文奖。他现在是 IEEE 语音与语言处理技术委员会委员,语音领域权威期刊 IEEE/ACM Transactions on Audio, Speech and Language Processing 的 Associate Editor,IEEE Spoken Language Technology Workshop 2024 的大会主席,曾受邀在 ICASSP 2022、ISCA SPSC Workshop、IJCAI 2023 DADA Workshop 等权威学术会议做特邀报告。

核心成员

Amphion 团队核心都是港中大(深圳)学生,他们的背景都相当亮眼,是妥妥的 “别人家的团队”。张雪遥刚刚博二,他的文章却已经被谷歌学术引用数百次,且在 2023 年入选了全国仅 55 人的腾讯犀牛鸟精英人才计划;王远程直博入学港中大(深圳);薛浏蒙博士有微软、腾讯、京东等多家大厂的实习经历。

值得一提的是,Amphion 核心成员中还有两位港中大(深圳)大二学生。顾毅骋包揽了 Amphion 中声码器(vocoder)的所有代码,他大一入学三周即进组科研,大二第一学期即手握语音领域顶级会议文章;大二学生王超人也是人如其名,一个人包揽 Amphion 可视化部分的所有代码,而且他的个人开源系统在 GitHub 上已收获数千颗星。

Amphion 名字背后的含义

"Amphion" 取名自古希腊神话中传奇音乐家 Amphion。传说中,Amphion 以弹奏竖琴而著称,并运用他的音乐才能建造了底比斯城墙。据说他的琴声能感动树木和岩石。Amphion 团队希望借用安菲翁的音乐天赋和传奇,畅想项目助力科研和开发的美好愿景,擘画声音科技逐步迈向可持续发展的美好蓝图。

编辑 刘思凡  二审 麦苗茵  三审 张雪松

(作者:深圳特区报记者 罗实宜 文/图)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页