• 首页
  • 粮食
  • 蔬菜
  • 果品
  • 水产
  • 酒水
  • 饮料
  • 茶叶
  • 畜禽
  • 食用油
  • 资讯
logo
  • 首页>
  • 资讯 >
  • 正文

文字、图片一键生成逼真音效,作者亲自揭秘音频AIGC模型

2023-02-15 21:14:38 来源:机器之心


(相关资料图)

AIGC 在最近几月获得了巨大的突破,用户可以输入自然语言生成图像、视频、甚至是 3D 模型。但对于音频音效合成,高自由度音频生成因文本 - 音频对数据缺乏,以及长时波形建模困难而带来挑战。 此前,机器之心发布的文章《》很好的解决了上述问题,研究者提出了一款创新的、文本到音频生成系统,即 Make-An-Audio。其可以将自然语言描述作为输入,而且是任意模态(例如文本、音频、图像、视频等)均可,同时输出符合描述的音频音效。 具体而言,研究团队提出 Distill-then-Reprogram 文本增强策略已解决数据缺乏问题,即使用教师模型获得音频的自然语言描述,再通过随机重组获得具有动态性的训练样本。在 Distill 环节中,使用音频转文本与音频 - 文本检索模型,找到语言缺失 (Language-Free) 音频的自然语言描述候选 (Candidate),通过计算候选文本与音频的匹配相似度,在阈值下取得最佳结果作为音频的描述。在 Reprogram 环节中,团队从额外的事件数据集中随机采样,并与当前训练样本相结合,得到全新的概念组合与描述,以扩增模型对不同事件组合的鲁棒性。 另一方面,自监督学习已经成功将图片迁移到音频频谱,利用了频谱自编码器以解决长音频序列问题,并基于 Latent Diffusion 生成模型完成对自监督表征的预测,避免了直接预测长时波形。 此外在研究中团队还探索了强大的文本条件策略,包括对比式 Contrastive Language-Audio Pretraining (CLAP) 以及语言模型 (LLM) T5, BERT 等,验证了 CLAP 文本表征的有效与计算友好性。同时还首次使用 CLAP Score 来评估生成的音频,可以用于衡量文本和生成场景之间的一致性;使用主、客观相结合的评估方式,在 benchmark 数据集测试中验证了模型的有效性,展示了模型出色的零样本学习 (Zero-Shot) 泛化性等。 为了让大家更好的了解这项研究,机器之心最新一期线上分享邀请到了论文两位作者黄融杰、任意,为大家解读文本到音频的生成系统,即 Make-An-Audio。 分享主题:音频 AIGC 模型 Make-An-Audio 与高可控文本转音频合成 分享摘要:近期 AIGC 如同上了热搜一般,火热程度居高不下,但在音频音效领域,AIGC 的福利似乎还差了一些:主要由于高自由度音频生成需要依靠大量文本 - 音频对数据,同时长时波形建模还有诸多困难。 为了解决上述困难,浙江大学与北京大学联合火山语音,共同提出了一款创新的、文本到音频的生成系统,即 Make-An-Audio。其可以将自然语言描述作为输入,而且是任意模态(例如文本、音频、图像、视频等)均可,同时输出符合描述的音频音效,具有强可控性、泛化性。 嘉宾简介:黄融杰,浙江大学硕士二年级,师从赵洲教授。第一作者在 NeurIPS/ICLR/IJCAI/ACM-MM 等会议发表多篇文章,主要研究方向为多模态合成,语音翻译与自监督学习。 任意,火山语音(字节跳动 AI Lab Speech & Audio 智能语音与音频)团队研究员,著名语音合成框架 FastSpeech 系列作者,曾在人工智能顶会发表论文 40 余篇,谷歌学术引用超过 2000。主要研究方向为语音合成、语音翻译和机器翻译。 论文链接:https://arxiv.org/abs/2301.12661 项目链接:https://text-to-audio.github.io (https://text-to-audio.github.io/)

直播时间:2月15日19:00-20:00

直播间:关注机动组视频号,立即预约直播。

交流群:本次直播有 QA 环节,欢迎加入本次直播交流群探讨交流。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

点击阅读原文,访问机动组官网,观看更多精彩分享;

关注 机动组服务号, 获取每周直播预告 。

关键词: 自然语言 机器之心 浙江大学

    为您推荐

  • 文字、图片一键生成逼真音效,作者亲自揭秘音频AIGC模型

    资讯2023-02-15
  • 顺德有哪些特产 天天微动态

    资讯2023-02-15
  • 甲有5套房,不上班,收房租;乙有1套房,上班赚工资;丙无房,租房子…...

    资讯2023-02-15
  • 麻六记被爆破产?官方旗舰店否认,称正常发货中

    资讯2023-02-15
  • 躺平是什么意思 世界看点

    资讯2023-02-15
  • 每日资讯:中国工商银行贷记卡是什么卡

    资讯2023-02-15
  • 天天播报:欧冠单场:米兰小胜热刺

    资讯2023-02-15
  • Facebook管理层大变动 数据泄露丑闻或成主因

    资讯2023-02-15
  • 每日时讯!千万不要小看了茄子,大厨教你秘制吃法,赛过大鱼大肉,太解馋了

    资讯2023-02-15
  • 全国多地景区促销 贵州377家A级景区免头道门票 世界今日报

    资讯2023-02-15
  • 马蜂窝完成新一轮融资,布局旅游产业互联网见成效|当前热讯

    资讯2023-02-15
  • 遇见的作文600字小学5篇-世界看热讯

    资讯2023-02-15
  • 龙汉初劫发生了什么_龙汉初劫是什么劫 环球微动态

    资讯2023-02-15
  • 大学生社会实践心得体会(精选10篇)-精彩看点

    资讯2023-02-15
  • 云南西畴:村企共建 共绘美丽乡村新画卷

    资讯2023-02-15
  • 旧唐书宋庆礼传文言文阅读原文和答案

    资讯2023-02-15
  • 晚上吃蛋糕会胖吗 晚上喜欢吃蛋糕会发胖吗

    资讯2023-02-14
  • 世界实时:中国银行异地存款要手续费吗

    资讯2023-02-14
  • 连续十年未通过驾照考试,年过半百的老汉竟要挟下属_当前报道

    资讯2023-02-14
  • 2023年宁夏自治区本级重点项目投资计划表

    资讯2023-02-14

果品

  • 全球报道:腥臭刺鼻!海关截获生活垃圾及医疗废弃物2.79吨
  • Dance in the moment_环球观焦点
  • 工业母机概念发力走高,巨轮智能涨停,秦川机床等拉升
  • 天天热门:好的领域模型应该是什么样子?
  • 唐源电气董秘回复:公司一直积极地在推动诉讼进程,迫切地希望能够早日结案

蔬菜

  • 说好“一梯一户”却成了“两梯两户”,买方能否解除合同?
  • 更高水平开放合作助力中国东盟经贸发展迎新机遇
  • 9被告人犯侵犯著作权罪被判刑罚
  • 玉渊谭天丨中美再通话,“建设性”很重要
  • 环球时报社评:中美经贸需要建设性对话
  • 俄媒:莫斯科扩大新冠感染新疗法试点范围
  • 冰雪之约 中国之邀 | 追赶的勇气
  • 中国第20批赴黎维和建筑工兵分队完成“VA-2”道路排水系统修缮任务
  • 中国常驻联合国代表团举办恢复联合国合法席位50周年图片展
  • 美专家认为三大原因导致美国供应链危机

Copyright   2015-2022 华南食品网 版权所有  备案号:粤ICP备18025786号-52   联系邮箱: 954 29 18 82 @qq.com