ob体育最新官网入口_ob体育官网下载ios-专注管道检测机器人、管道机器人CCTV、管道潜望镜QV设备研发与应用
全国服务热线:
400-9966-326
只需极少数据训练一分钟这个 AI 就能复制任何人的声音

只需极少数据训练一分钟这个 AI 就能复制任何人的声音

发布时间:2024-04-26 17:09:31 |   作者: 欧宝体育官网

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、

  【新智元导读】蒙特利尔初创公司 Lyrebird 开发了一种语音合成技术,用很少的数据,训练一分钟,就能复制任何人的声音。初版展示后,已经有 10,000 人签约后续版本试用。结合某些技术,比如对视频中一个人说话的口型进行编辑的软件,“假消息”、“假新闻”或许会在 2025 年成为一个有趣但也危险的情况。

  还记得《碟中谍》中汤姆·克鲁斯扮演的伊森·亨特使用当时还不可能的技术——语音合成——模仿其他人物的声音吗?

  本周,蒙特利尔一家名叫 Lyrebird(注释:琴鸟,一种擅长模仿周围声音的鸟)勇于探索商业模式的公司将这转为了现实。

  “我们正在开发新的语音合成技术,除了其他功能,我们大家可以用非常少的数据复制(copy)某个人的声音,”参与开发该项目的其中一位深度学习研究员博士 Alexandre de Brebisson 说:“我们的实验表明,一分钟的音频已经包含了很多人类声音的 DNA。我们之所以能够用极少量的数据学习新的声音,是因为我们的模型能够捕捉新声音和它已经知道的所有声音之间的相似之处。我们的模型理解(understand)使一个语音与另一个语音不同的基本变量(underlying variables)。”

  说到语音合成,当然不能不提此前。不过,尽管 WaveNet 效果十分强大,这种技术还是依赖了大量的语音数据。同时,根据 HackNews、Reddit 和 Twitter 等讨论,能够完全复现 WaveNet 的案例并不多,其实就是相当少——尽管 DeepMind 在论文中给出了具体细节。因此,也有人评论称,WaveNet 还是依赖大数据和大计算力的平台。

  Lyrebird由于成功实现了这种技术,de Brebisson 表示,他的团队已经通过电子邮件收到了几十种不同的应用建议,这中间还包括他们想到的,还有一些则是他们没想到的应用程序。

  例如,一些公司有兴趣让他们的用户选择以名人或家人的声音朗读有声读物。还有医疗公司的建议,希望使用有语音障碍人士的语音样本,让系统合成他们自己的声音。另一个有趣的想法是视频游戏公司提出的,让游戏角色用人类的声音与人类玩家对话。

  潜在应用机会太多,目前已经有 10,000 人注册预定试用即将推出的测试版本。de Brebisson 继续说道:“以后我们还将增加功能,例如让公司依据自己的需求设计独特的声音,并控制这些生成的声音的情感。”

  根据 Google+ 的讨论,Lyrebird 之所以能做到小数据语音实时合成,或许是将风格迁移应用到了语音数据上。当然,真实的情况如何,Lyrebird 还没有公布。

  结合现有的某些技术,比如对视频中一个人说话的口型进行效果逼真的编辑软件,“假消息”、“假新闻”或许会在 2025 年成为一个十分有趣但也危险重重的情况。

  精准把握客户的真实需求,了解新智元定位,负责制定、执行公司年度会展活动及别的客户经营服务计划,监督实施全过程,完成业绩指标。掌握 AI 产业动态,熟悉市场状况,定期提出客户服务计划和建议。积极开拓新客户,提升与既有客户、同行业间良好的合作伙伴关系;组织部门开发多种服务计划,完成客户服务目标及确保回款任务。负责管理和培训客户部业务人员,安排并指导客户部日常工作,与其他部门良好协作。

欧宝体育官网