实验室新闻、论文、讲座与活动
文章回顾了上海交通大学听觉认知与计算声学实验室2025年在科研创新、人才培养和学术交流方面的辉煌成就,包括论文发表、模型发布、团建活动、荣誉奖项等多个方面。
Jan 31, 2026 · 上海
钱彦旻教授凭借在听觉人工智能领域的卓越科研成就,荣获第二届睿远青年科技奖信息与空间科技奖。他的创新研究有效解决了长期困扰该领域的“鸡尾酒会难题”,为听觉处理及语音交互技术的大规模应用奠定了技术基础。
Nov 28, 2025 · 上海交通大学闵行校区学生中心
上海交通大学联合多所高校和企业在2024年DCASE国际挑战赛中,荣获低复杂度声学场景分类和工业设备异常声音检测两项冠军,以及自动音频字幕生成赛道的季军。
Jul 4, 2024
95 activities
在本文中,我们提出了 MeanSE,这是一种利用平均流(Mean Flow)的高效生成式语音增强模型,该模型通过建模平均速度场来实现高质量的单次函数评估增强。实验结果表明,在单次函数评估条件下,我们提出的 MeanSE 显著优于流匹配基线
本文探讨了生成式语音时代下的音频水印技术,分析了其在溯源、反克隆与合规方面的应用潜力。文章详细介绍了水印系统的构成模块、部署方式、面临的挑战与威胁模型,并提供了评测口径和关键发现。最后,提出了水印技术落地的核心短板和改进方向。
本文介绍了上海交通大学听觉认知与计算声学实验室在ICASSP 2026上发表的论文SLM-SS,该方法通过将语音语言模型应用于语音分离,显著提升了分离信号的可懂度与连贯性。实验结果表明,相较于现有方法,SLM-SS在多种下游任务中实现了更优的语言一致性。
本文总结了2025年多语种自动语音识别(ASR)领域的最新研究进展,包括高效架构设计、跨语种特征迁移、零/低资源语种适配等核心技术方向,并介绍了多个代表性研究成果及其应用场景。
本文深入解析了门控注意力、线性注意力和扩散语言模型三大创新技术,探讨了它们的设计动机、实现路径与发展趋势。文章从架构创新的驱动力出发,详细介绍了每种技术的核心原理、工程实践及在大模型中的应用价值,并展望了未来的技术融合与挑战。
上海交通大学听觉认知与计算声学实验室发布2026马年新春贺词,回顾过去一年在科研、人才培养、国际交流、成果转化和团队建设等方面取得的丰硕成果,并展望新一年的发展愿景。