AudioCC Lab

ReviewPaperAwardTeam

声动2025！AudioCC实验室年度高光时刻盘点

文章回顾了上海交通大学听觉认知与计算声学实验室2025年在科研创新、人才培养和学术交流方面的辉煌成就，包括论文发表、模型发布、团建活动、荣誉奖项等多个方面。

Jan 31, 2026 · 上海

AwardASRSESV

钱彦旻教授凭借在听觉人工智能领域的卓越科研成就，荣获第二届睿远青年科技奖信息与空间科技奖。他的创新研究有效解决了长期困扰该领域的“鸡尾酒会难题”，为听觉处理及语音交互技术的大规模应用奠定了技术基础。

Nov 28, 2025 · 上海交通大学闵行校区学生中心

ChallengeSEDSSLLM

上海交通大学联合多所高校和企业在2024年DCASE国际挑战赛中，荣获低复杂度声学场景分类和工业设备异常声音检测两项冠军，以及自动音频字幕生成赛道的季军。

Jul 4, 2024

本文探讨了生成式语音时代下的音频水印技术，分析了其在溯源、反克隆与合规方面的应用潜力。文章详细介绍了水印系统的构成模块、部署方式、面临的挑战与威胁模型，并提供了评测口径和关键发现。最后，提出了水印技术落地的核心短板和改进方向。

本文深入解析了门控注意力、线性注意力和扩散语言模型三大创新技术，探讨了它们的设计动机、实现路径与发展趋势。文章从架构创新的驱动力出发，详细介绍了每种技术的核心原理、工程实践及在大模型中的应用价值，并展望了未来的技术融合与挑战。

上海交通大学听觉认知与计算声学实验室发布2026马年新春贺词，回顾过去一年在科研、人才培养、国际交流、成果转化和团队建设等方面取得的丰硕成果，并展望新一年的发展愿景。

本文介绍了可控语音生成技术的最新进展，包括经典模型架构如PromptTTS、Salle和CosyVoice，以及细粒度指令控制和多模态语音生成的前沿研究。文章还探讨了数据生成与标注的挑战及解决方案，并展望了未来研究方向。

本文深入探讨了语音翻译领域的最新研究趋势，重点介绍了流式语音翻译中的无界语音输入处理、语音到语音翻译中的副语言信息迁移以及全能端到端模型的崛起。文章分析了当前技术的挑战与解决方案，并展望了未来发展方向。

本文回顾了语音生成（TTS）任务从传统架构到语音大模型时代的发展历程，重点介绍了离散语音表征（Discrete Speech Representation）的关键技术及其对TTS任务的影响。