上海交通大学 · 计算机科学与工程系

听觉认知与计算声学实验室

Auditory Cognition & Computational Acoustics

亮点

全部活动 →

annual-reviewpaperaward

声动2025！AudioCC实验室年度高光时刻盘点

文章回顾了上海交通大学听觉认知与计算声学实验室2025年在科研创新、人才培养和学术交流方面的辉煌成就，包括论文发表、模型发布、团建活动、荣誉奖项等多个方面。

awardasr

喜报 | 钱彦旻教授荣获第二届上海交通大学睿远青年科技奖

钱彦旻教授凭借在听觉人工智能领域的卓越科研成就，荣获第二届睿远青年科技奖信息与空间科技奖。他的创新研究有效解决了长期困扰该领域的“鸡尾酒会难题”，为听觉处理及语音交互技术的大规模应用奠定了技术基础。

competitionsed

喜讯 | DCASE 2024国际挑战赛两项冠军和一项季军

上海交通大学联合多所高校和企业在2024年DCASE国际挑战赛中，荣获低复杂度声学场景分类和工业设备异常声音检测两项冠军，以及自动音频字幕生成赛道的季军。

【论文速递】ICASSP 2026 | MEANSE: 基于平均速度流的高效生成式语音增强

在本文中，我们提出了 MeanSE，这是一种利用平均流（Mean Flow）的高效生成式语音增强模型，该模型通过建模平均速度场来实现高质量的单次函数评估增强。实验结果表明，在单次函数评估条件下，我们提出的 MeanSE 显著优于流匹配基线

论文

完整列表 →

arXiv 2026Journal

DeepASMR: LLM-Based Zero-Shot ASMR Speech Generation for Anyone of Any Voice

Leying Zhang, Tingxiao Zhou, Haiyang Sun, Mengxiao Bi, Yanmin Qian

Paper

T-ASLP 2026Journal

Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification

Bei Liu, Yanmin Qian

Paper

CSL 2026Journal

An End-to-end Integration of Speech Separation and Recognition with Self- Supervised Learning Representation

Yoshiki Masuyama, Xuankai Chang, Wangyou Zhang, Samuele Cornell, Zhong-Qiu Wang, Nobutaka Ono, Yanmin Qian, Shinji Watanabe

Paper

INTERSPEECH 2026Conference

Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto- Regressive Modeling

Haiyang Sun, Shujie Hu, Shujie Liu, Lingwei Meng, Hui Wang, Bing Han, Yifan Yang, Yanqing Liu, Sheng Zhao, Yan Lu, Yanmin Qian

Paper

INTERSPEECH 2026Conference

ContextSpeech: A Large-Scale Real-Human Speech Corpus with Context-Aware Descriptions

Haiyang Sun, Bing Han, Zheng Lian, Leying zhang, Chenda Li, Chenyang Le, Ye Bai, Yi Zhao, Yanmin Qian

INTERSPEECH 2026Conference

Datasets and Learnings in the 2024 URGENT Speech Enhancement Challenge

Wangyou Zhang, Kohei Saijo, Samuele Cornell, Robin Scheibler, Chenda Li, Zhaoheng Ni, Anurag Kumar, Marvin Sach, Wei Wang, Yihui Fu, Xiaohuai Le, Zhihang Sun, Xiaobin Rong, Rong Chao, Shinji Watanabe, Tim Fingscheidt, Yanmin Qian

研究方向

语音信号处理前端

研究用于提升语音质量与可理解性的信号处理方法，包括语音增强、语音分离、去混响以及鲁棒声学特征提取等技术。

语音识别与语言理解

研究如何将语音信号转写并理解其语义内容，包括自动语音识别、语音翻译以及上下文相关的口语语言理解。

语音与音频生成

研究从文本、语义表示或多模态信息生成高质量语音与音频的生成模型，包括文本到语音合成以及可控、富表现力的语音生成。

成员

钱彦旻

教授

Scholar Email

钱彦旻博士现任上海交通大学教授。2012年于清华大学电子工程系获得博士学位，并于2015年至2016年在英国剑桥大学工程系语音组担任访问研究员。他是 IEEE 高级会员、国际语音通信协会（ISCA）会员，同时也是 Kaldi 语音识别工具包的创始成员之一。钱彦旻教授长期从事语音与语言处理相关研究，在该领域已发表论文 300 余篇，总引用超过 2 万次，并在中国和美国获得 120 余项专利授权。曾带领团队在国际挑战赛中获得 6 次冠军。其研究成果多次获得学术界认可，曾获得 IEEE 信号处理学会最佳论文奖、Elsevier《Speech Communication》最佳论文奖，以及 IEEE ISCSLP 2024、IEEE ASRU 2019 和 IEEE ISCSLP 2016 最佳论文奖等荣誉。此外，他还获得多项中国高层次人才荣誉，包括教育部长江学者特聘教授、国家自然科学基金优秀青年科学基金，以及吴文俊人工智能科学技术奖一等奖。目前，他担任 IEEE 信号处理学会语音与语言技术委员会（Speech and Language Technical Committee）委员。他的主要研究方向包括语音识别与语音翻译、说话人与语言识别、语音分离与增强、自然语言理解以及多媒体信号处理。