热点

趣丸科技联合港中大深圳开源语音大模型MaskGCT，刷新全球多项SOTA

时间：2024-10-25 07:49 来源：中国网阅读量：8542

10月24日，趣丸科技宣布与香港中文大学联合研发的语音大模型“MaskGCT”正式开源，面向全球用户开放使用。区别于传统TTS模型，该模型采用掩码生成模型与语音表征解耦编码的创新范式，在声音克隆、跨语种合成、语音控制等任务中展现出卓越性能。

据介绍，MaskGCT在三个TTS基准数据集上都达到了SOTA效果，性能超过当前最先进的同类模型，某些指标甚至超过人类水平。显著特点如下:

1、秒级超逼真的声音克隆:提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色，且能完整复刻语调、风格和情感。

2、更精细可控的语音生成:可灵活调整生成语音的长度、语速和情绪，支持通过编辑文本编辑语音，并保持韵律、音色等方面的极度一致。

3、高质量多语种语音数据集:训练于香港中文大学和趣丸科技等机构联合推出的10万小时数据集Emilia，是全球最大且最为多样的高质量多语种语音数据集之一，精通中英日韩法德6种语言的跨语种合成。

据介绍，MaskGCT是一个大规模的零样本TTS模型，采用非自回归掩码生成Transformer，无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。实验表明，MaskGCT在语音质量、相似度和可理解性方面优于当前最先进的TTS模型，并且在模型规模和训练数据量增加时表现更佳，同时能够控制生成语音的总时长。MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布。

该模型研发团队在语音领域拥有深厚的研究积累和原创性成果。这主要依托趣丸科技十年深耕音频技术领域和亿级高质量语音用户的服务经验，以及香港中文大学国际一流水平的师资队伍。早在今年5月份，趣丸科技就与香港中文大学宣布共建联合实验室，针对人工智能音频大模型相关的前沿课题进行研究，旨在突破行业难题，促进产学研深度融合，打造技术领先的生成式音频大模型，填补业界空白。

目前，MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用，在安全合规下，趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版本，并实现字幕修复与翻译、语音翻译、唇音同步等功能。该产品进一步革新视频翻译制作流程，大幅降低过往昂贵的人工翻译成本和冗长的制作周期，成为影视、游戏、短剧等内容出海的理想选择平台。

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。

宝马中国联合华为终端深度融合鸿蒙生态开启

在科技飞速发展的今天，汽车智能化已然成为行业发展不可逆转的必然趋势。宝马中国与华为终端的合作，宛如两颗璀璨星辰在浩瀚宇宙中交汇，为汽车智能互联领域带来了全新的曙光和无限可能。宝马，一直以来凭借其卓越的驾驶操控性能，无论是在蜿蜒的山路还是平坦...
汽车行业首批增程器综合性能认证自主品牌技

在汽车行业技术不断迭代升级的进程中，增程器领域传来了令人振奋的消息。中国汽车工程研究院股份有限公司联合中国质量认证中心有限公司颁发了汽车行业首批“乘用车增程器综合性能之星”认证证书，这一举措在汽车行业发展历程中具有里程碑式的意义。此次认证基...
怎么选购电动叉车呢？易工机械分享几个要点

电动叉车是现代物流行业中的重要设备之一，与传统的燃油叉车相比，它具有更好的环保性、低噪音、更低的维护成本、操作简便、节省时间和更高的安全性等优势。但在选购电动叉车时，需要考虑以下几个方面：一、载货能力叉车的载货能力是一个非常重要的指标。在选...
不断创“芯”，亚略特为行业高质量发展提供

近日，由深圳市芯片行业协会联合凤凰网举办的“新时代芯未来“全球芯片产业链发展高峰论坛在深圳前海万科国际会议中心成功召开。亚略特作为杰出企业代表之一受邀参与了此次峰会，并凭借在多模态生物识别核心技术上的不断创新，以及芯片研发领域的持续突破，获...

热点

趣丸科技联合港中大深圳开源语音大模型MaskGCT，刷新全球多项SOTA

宝马中国联合华为终端深度融合鸿蒙生态开启

汽车行业首批增程器综合性能认证自主品牌技

怎么选购电动叉车呢？易工机械分享几个要点

不断创“芯”，亚略特为行业高质量发展提供