实验室新闻、论文、讲座与活动
文章回顾了上海交通大学听觉认知与计算声学实验室2025年在科研创新、人才培养和学术交流方面的辉煌成就,包括论文发表、模型发布、团建活动、荣誉奖项等多个方面。
Jan 31, 2026 · 上海
钱彦旻教授凭借在听觉人工智能领域的卓越科研成就,荣获第二届睿远青年科技奖信息与空间科技奖。他的创新研究有效解决了长期困扰该领域的“鸡尾酒会难题”,为听觉处理及语音交互技术的大规模应用奠定了技术基础。
Nov 28, 2025 · 上海交通大学闵行校区学生中心
上海交通大学联合多所高校和企业在2024年DCASE国际挑战赛中,荣获低复杂度声学场景分类和工业设备异常声音检测两项冠军,以及自动音频字幕生成赛道的季军。
Jul 4, 2024
32 activities
本文探讨了生成式语音时代下的音频水印技术,分析了其在溯源、反克隆与合规方面的应用潜力。文章详细介绍了水印系统的构成模块、部署方式、面临的挑战与威胁模型,并提供了评测口径和关键发现。最后,提出了水印技术落地的核心短板和改进方向。
本文深入解析了门控注意力、线性注意力和扩散语言模型三大创新技术,探讨了它们的设计动机、实现路径与发展趋势。文章从架构创新的驱动力出发,详细介绍了每种技术的核心原理、工程实践及在大模型中的应用价值,并展望了未来的技术融合与挑战。
上海交通大学听觉认知与计算声学实验室发布2026马年新春贺词,回顾过去一年在科研、人才培养、国际交流、成果转化和团队建设等方面取得的丰硕成果,并展望新一年的发展愿景。
本文介绍了可控语音生成技术的最新进展,包括经典模型架构如PromptTTS、Salle和CosyVoice,以及细粒度指令控制和多模态语音生成的前沿研究。文章还探讨了数据生成与标注的挑战及解决方案,并展望了未来研究方向。
本文深入探讨了语音翻译领域的最新研究趋势,重点介绍了流式语音翻译中的无界语音输入处理、语音到语音翻译中的副语言信息迁移以及全能端到端模型的崛起。文章分析了当前技术的挑战与解决方案,并展望了未来发展方向。
本文回顾了语音生成(TTS)任务从传统架构到语音大模型时代的发展历程,重点介绍了离散语音表征(Discrete Speech Representation)的关键技术及其对TTS任务的影响。