思必驰-上海交大联合实验室13篇论文被两大会议收录

近日,计算语言学与自然语言处理领域全球顶级会议ACL 2025及语音研究领域旗舰会议INTERSPEECH 2025相继公布论文录用结果。思必驰-上海交大联合实验室表现亮眼,共有13篇论文被两大会议收录!

ACL是中国计算机学会(CCF)推荐的A类顶级国际学术会议,代表着计算语言学和自然语言处理领域的最高水平。INTERSPEECH由国际语音通信协会(ISCA)主办,是全球最大、最综合性的语音信号处理领域科技盛会。

本次收录的论文成果涵盖了大模型检索增强生成、语音编解码与表示学习、低延迟语音合成、低资源语音识别、可靠音频语言模型等前沿方向,在多模态检索增强生成、说话人解耦低比特率编码、高效非自回归语音合成、大规模低资源语料库构建与自训练、模型可靠性增强等关键技术上取得重要突破。这些研究共同推动高效、可靠、低资源友好的智能语音语言技术发展,为思必驰的全链路语音语言核心技术实力以及业务创新能力带来多重增益。以下为部分成果介绍:

面向长文档问答的大模型可靠检索

NeuSym-RAG: Hybrid Neural Symbolic Retrieval with Multiview Structuring for PDF Question Answering

NeuSym-RAG在自建数据集AIRQA-Real上以17.3%绝对优势超越经典RAG,通过神经与符号检索协同、多视角结构化解析,让企业级大模型在处理海量半结构化文档时保持高可靠性与可扩展性,同时兼具成本可控能力。

论文简介:基于大语言模型(LLM)的检索增强生成(RAG)技术在自动问答任务中展现出广阔前景,但现有方法往往将神经检索与符号检索割裂处理,未能充分发挥二者的互补优势。此外,传统的单视角文本切分方式忽略了PDF文档中丰富的结构与版面信息,如章节、表格等。为此,本文提出NeuSym-RAG,一种神经-符号融合的混合式检索框架,在智能体与知识库的交互中结合两种检索范式。该方法通过多视角元素切分与基于数据库模式的解析,将半结构化PDF中的内容同时组织进关系型数据库与向量库中,使得大模型智能体能够迭代式地检索上下文,直至获取足够信息以生成答案。在三个基于完整 PDF 的问答数据集(包括一个自建的学术问答集 AIRQA-REAL)上的实验表明,NeuSym-RAG 稳定优于仅基于向量的RAG方法和多种结构化基线,证明了其在统一检索机制与多视角利用方面的优势。

低码率语音传输

LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec

LSCodec 提出了一种超低比特率且说话人解耦的离散语音编解码器,在保证听感的前提下显著压缩语音编码,并把说话人信息与内容彻底分离,让云端或边缘设备都能以更低带宽、更小模型安全传输和生成高品质语音。

论文简介:尽管离散语音标记在基于语言模型的语音生成方面展现出强大潜力,但其高比特率和冗余的音色信息限制了此类模型的发展。在这项工作中,我们提出了LSCodec,一种兼具低比特率和说话人解耦能力的离散语音编解码器。LSCodec采用多阶段无监督训练框架并结合说话人扰动技术。首先建立一个连续信息瓶颈,然后通过向量量化生成一个离散的说话人解耦空间。最后,一个离散标记声码器从LSCodec中细化声学细节。通过重建评估,LSCodec在仅使用单个码本和比基线更小的词汇量的情况下,展现出卓越的可懂度和音频质量。语音转换和说话人探测实验证明了LSCodec出色的说话人解耦能力,消融研究验证了所提出训练框架的有效性。

低延迟语音合成

Unlocking Temporal Flexibility: Neural Speech Codec with Variable Frame Rate

提出TFC(时序灵活编码)技术,首次将可变帧率(VFR)引入神经语音编解码器,让语音编码“按需给帧”,在保持音质的同时显著缩短传输/推理序列,实现实时语音服务的更快响应和更低云成本。

论文简介:大多数神经语音编解码器通过帧内机制(例如码本丢弃)在恒定帧率(CFR)下实现比特率调整。然而,语音段本身具有时变的信息密度(例如静音区间与有声段)。这一特性使得CFR在比特率和词元序列长度方面并非最优,影响了实时应用的效率。在本工作中,我们提出了一种时序灵活编码(Temporally Flexible Coding, TFC)技术,首次将可变帧率(VFR)引入神经语音编解码器。TFC支持无缝调整平均帧率,并基于时序熵动态分配帧率。实验结果表明,采用TFC的编解码器能以高度灵活性实现最优重建质量,并在较低帧率下保持竞争力。该方法有望与其他低帧率神经语音编解码技术结合,为下游任务提供更高效的解决方案。

长期以来,思必驰深度参与国内外学术前沿研究,在ICASSP、INTERSPEECH、ACL、EMNLP、AAAI、ICML等顶级学术会议上屡获佳绩,持续产出高质量科研成果。思必驰-上海交大联合实验室凭借一系列高水平论文,彰显了在人工智能语音语言关键技术领域的深度探索和重大突破,为行业的发展注入了强大动力。思必驰秉持科研与产业应用紧密结合的理念,未来也将持续探索科技成果的应用转化。

作为专业的对话式人工智能平台型企业,思必驰具有源头技术创新和应用创新的能力,自2022年7月获国家科技部批准建设“语言计算国家新一代人工智能开放创新平台”以来,接连于2023-2024年获批组建苏州市、江苏省、长三角三级创新联合体,并于2025年携手上海交通大学、苏州大学,牵头组建“江苏省语言计算及应用重点实验室”,成为国家人工智能战略科技力量的重要组成部分。

作为专业的对话式人工智能平台型企业,思必驰具有源头技术创新和应用创新的能力,自2022年7月获国家科技部批准建设“语言计算国家新一代人工智能开放创新平台”以来,接连于2023-2024年获批组建苏州市、江苏省、长三角三级创新联合体,并于2025年携手上海交通大学、苏州大学,牵头组建“江苏省语言计算及应用重点实验室”,成为国家人工智能战略科技力量的重要组成部分。

思必驰承担了包括国家重点研发计划、国家发改委“互联网+”重大工程和人工智能创新发展工程、国家工信部人工智能与实体经济深度融合项目、长三角科技创新共同体联合攻关计划项目等十余项国家级、省部级项目,展现出卓越的科研实力与项目落地能力。

思必驰深耕语音语言领域,凭借自主研发的核心技术多次在国际研究机构评测中夺得冠军;曾三度斩获国内人工智能最高奖“吴文俊奖”,荣获中国专利优秀奖,以及信通院车载智能语音交互系统最高级别认证等重要荣誉。技术创新能力备受全球瞩目,被高盛全球人工智能报告列为关键参与者,也被Gartner评为东亚五大明星AI公司之一。

截至2024年年底,思必驰拥有近100项全球独创技术,已授权知识产权1597件,其中已授权发明专利633项,参与了71项国家/行业/团体标准,获得23项国家级的产品认证。近期,大模型人机对话技术创新与产业赋能发展提速,思必驰坚持自主的大模型技术路线,即“构建可靠性优先的1+N分布式智能体系统:1 个中枢大模型+ N 个垂域模型及全链路交互组件组成全功能系统”,以任务型交互为核心,结合智能硬件感知优势,构建垂域大模型和中枢大模型系统,服务企业客户

(来源:日照新闻网)

【广告】免责声明:本内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,广告内容仅供读者参考。


评论一下
评论 0人参与,0条评论
还没有评论,快来抢沙发吧!
最热评论
最新评论
已有0人参与,点击查看更多精彩评论
返回顶部