语音是人类最自然、最轻松的日常沟通方式。然而,当我们需要与电脑这样的机器沟通时,就不那么简单了。语音组的工作就是把语音交流平稳地、可靠地嵌入计算机。我们的研究工作主要集中在口语识别与合成技术、人机语音交互技术, 以及人与人之间的语音通信等方面。
语音组目前的研究重点包括:自动语音识别的核心技术使计算机能“听”,使计算机能更方便地协助人们存取数据,创建内容和完成任务;文语转换的语音合成使计算机能“说”,让电脑像人一样说话,并对人声作出回应、提供资料;音频信息管理及检索使计算机能将各类音频信息库有效管理,并随时快速检索,以丰富人际沟通,例如转换语音邮件成文本;信号处理,用于改善语音信号,无缝调节语音信号参数,如频率,语速,语音特征等;与其他组合作,将语音统计学习算法扩展到其他模式识别应用中,如数学公式和东亚字符的手写识别。
可训练的文娱合成系统
我们开发了一种基于统计模型训练方法的文语合成系统(TTS)。与以前的基于拼接语音合成系统相比,新方法有如下优点:
1) 在模型训练和语音生成过程中采用了统一的最大似然准则;
2) 语音模型的训练只需要相对较少的语音数据(500句);
3) HMM模型的存储量小,通常小于2M;
4) 能够灵活的修改生成语音的频谱、能量、语速和其他相关的参数;
5) 对于一个新的说话人,可以通过自适应模型训练方法快速得到他的模型。
寻找音乐:哼唱检索和音乐导航
没有音乐,世界将会怎样?使用我们的“哼唱检索”技术,即使不知道或不记得曲名,你还是可以通过哼唱旋律找到喜爱的歌曲。对手机下载手机铃声, 哼唱检索特别有用, 因为用手机键入歌曲或歌手的名字并不方便,但用声音输入对手机却自然无碍。我们和微软中国产品部门合作,建立了一个服务原型系统 —— 通过手机拨号接通服务,哼唱一段歌曲旋律,就能找到所要的手机铃声以供下载。音乐导航,是指通过音乐内容分析、推荐和筛选,由人机互动方式生成乐曲列表,用户方便地找到想听的歌。当几千几万首歌曲已经储存在便携式音乐播放器中(比如iPod, Zune和智能手机),如何快速选择要听的音乐便成了一个大问题。音乐导航提供了“智能选择播放”的功能: 用户选定一首音乐,系统就会生成一个”乐曲点播台”, 自动推荐一些相似的乐曲。 根据用户对某一歌曲喜欢或不喜欢的反馈,或由设定的音乐筛选器,推荐乐曲的列表就会自动调整。其中的关键技术是对乐曲的自动内容分析,检测每一首歌多重音乐属性, 包括风格、乐器、音调和节奏等。
语音用户界面智能校正
我们开发了一种用于文字输入的智能语音用户界面。 它以连续语音作为其主要输入方式,以及配备手写输入纠错机制。连续语音录入加快了文本输入的速度,手写输入方便了定位以及语音识别错误的纠正。这种更自然的交互界面是非常智能的,在统计上,它可以纠正比用户手写指出的错误更多的错误。基于一个实际语音数据库,我们已经确认,通过重写语音识别自动产生的词图,我们可以生成一个比用户指出错误更少的句子。
HMM模型的区分性训练
HMM模型被广泛应用于各种模式分类问题中,如语音识别,数学公式和东亚字符的手写识别等。为了训练得到高区分性的HMM模型,我们提出了区分性模型训练的统一框架,可采用各种不同的准则,如最大互信息准则,最小分类错误准则,最小音素错误准则等。
增强人际交流:音频检索
虽然人与人之间的沟通大都通过交谈,但记录交谈时主要仍是通过传统的笔录、备忘录、会议记录或其他不同的文档。现在的技术还无法有效地利用录下的音频数据。如何使计算机更聪明地处理语音和音频数据是语音组的一个主要任务。目前,我们的创新技术是一个快速搜索引擎,它可从在音频记录中有效检索谈话内容,这些音频记录包括会议、电话、语音邮件,报告、在线讲座,以及网络视频等。微软办公软件的一个组件Microsoft OneNote 2007,是第一个集成我们音频检索技术的微软产品。用户可以借此搜索会议记录和电话中的关键词。