趣丸科技联合港中大深圳开源语音大模型MaskGCT,刷新全球多项SOTA
时间:2024-10-25 07:49 来源:中国网 阅读量:13332
10月24日,趣丸科技宣布与香港中文大学联合研发的语音大模型“MaskGCT”正式开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越性能。
据介绍,MaskGCT在三个TTS基准数据集上都达到了SOTA效果,性能超过当前最先进的同类模型,某些指标甚至超过人类水平。显著特点如下:
1、秒级超逼真的声音克隆:提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色,且能完整复刻语调、风格和情感。
2、更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪,支持通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。
3、高质量多语种语音数据集:训练于香港中文大学和趣丸科技等机构联合推出的10万小时数据集Emilia,是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成。
据介绍,MaskGCT是一个大规模的零样本TTS模型,采用非自回归掩码生成Transformer,无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。实验表明,MaskGCT在语音质量、相似度和可理解性方面优于当前最先进的TTS模型,并且在模型规模和训练数据量增加时表现更佳,同时能够控制生成语音的总时长。MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布。
该模型研发团队在语音领域拥有深厚的研究积累和原创性成果。这主要依托趣丸科技十年深耕音频技术领域和亿级高质量语音用户的服务经验,以及香港中文大学国际一流水平的师资队伍。早在今年5月份,趣丸科技就与香港中文大学宣布共建联合实验室,针对人工智能音频大模型相关的前沿课题进行研究,旨在突破行业难题,促进产学研深度融合,打造技术领先的生成式音频大模型,填补业界空白。
目前,MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用,在安全合规下,趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版本,并实现字幕修复与翻译、语音翻译、唇音同步等功能。该产品进一步革新视频翻译制作流程,大幅降低过往昂贵的人工翻译成本和冗长的制作周期,成为影视、游戏、短剧等内容出海的理想选择平台。
免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。
-
怎么选购电动叉车呢?易工机械分享几个要点
电动叉车是现代物流行业中的重要设备之一,与传统的燃油叉车相比,它具有更好的环保性、低噪音、更低的维护成本、操作简便、节省时间和更高的安全性等优势。但在选购电动叉车时,需要考虑以下几个方面:一、载货能力叉车的载货能力是一个非常重要的指标。在选...
-
不断创“芯”,亚略特为行业高质量发展提供
近日,由深圳市芯片行业协会联合凤凰网举办的“新时代芯未来“全球芯片产业链发展高峰论坛在深圳前海万科国际会议中心成功召开。亚略特作为杰出企业代表之一受邀参与了此次峰会,并凭借在多模态生物识别核心技术上的不断创新,以及芯片研发领域的持续突破,获...
-
我国5G基站总数达238.4万个
工信部发布2023年1—2月份通信业经济运行情况。截至2月末,我国5G基站总数达238.4万个,占移动基站总数的21.9%,5G网络建设稳步推进。数据显示,1—2月份,信息通信行业整体运行平稳。电信业务收入和业务总量稳步增长,云计算等新兴业...
-
灵感来自中国:俄罗斯电视台首次推出AI女
这年头,连女主播都可能不是真人了。据看看新闻KNEWS报道,俄罗斯南部斯塔夫罗波尔地区的一家电视台推出了一位AI天气预报女播报员,她亮相2次后就圈粉无数。3月22日SvoyoTV电视台首播了名为ldquo;未来预测rdquo;的新节目,最引...