荐读 |《语音识别:原理与应用》第3版出版
日期::2025-04-15 来源:语音识别 厦门大学 厦大智能语音实验室

    2025年4月,《语音识别:原理与应用》第3版出版,在京东、当当等平台均有销售。本书由洪青阳与李琳编著,第1版和第2版先后于2020年6月和2023年2月出版,内容涵盖声学特征提取、隐马尔科夫模型(HMM)、语言模型、加权有限状态转换器(WFST)、端到端语音识别、Kaldi、WeNet等基础原理和开源工具,图文并茂,深入浅出,受到读者的普遍欢迎,被国内多家高校和企业选用,已累计发行超1万册。随着大模型和新的开源工具发布,本书与时俱进更新内容。

    相对第2版,第3版原理部分新增Transformer结构、Conformer流识别、语音大模型、Zipformer等内容,特别是卷积下采样、注意力机制、相对位置编码、Transducer等细节,并对原有传统技术介绍做了一些删减合并;应用部分新增Whisper、Paraformer、FunASR和sherpa-onnx等开源模型/工具介绍,均来自项目经验总结,紧扣工业应用,极具指导性和实用性。

第3版包含以下章节:

第1章 语音识别概论,介绍人类语音的产生和感知过程,语音识别的关键技术、发展历史等。

第2章 语音信号基础,介绍声音的采集和量化过程,以及编码和存储格式。

第3章 语音特征提取,介绍语音信号的频域分析、倒谱分析、声学特征提取过程等。

第4章 HMM,介绍双重随机过程,以及HMM的三大问题。

第5章 GMM-HMM,介绍高斯混合模型的定义和重估计公式,并结合例子讲解GMM如何与HMM结合,以及对应的具体参数形式。

第6章 基于HMM的语音识别,介绍单音子声学模型和Viterbi解码过程,以及音素的上下文建模,包括双音子和三音子模型。

第7章 DNN-HMM,介绍深度学习在语音识别中的应用,包括CNN、LSTM、TDNN等网络。

第8章 语言模型,介绍语言模型的训练过程及其在语音识别中的作用。

第9章 WFST 解码器,介绍动态和静态的解码网络,以及WFST、HCLG等关键技术。

第10章 Kaldi训练实例,首先介绍Kaldi的下载与安装步骤,然后以aishell-1中文数据库为例,介绍如何训练和测试模型。

第11章 端到端语音识别,介绍CTC、RNN-T、Attention等端到端语音识别系统。

第12章 Transformer结构,详细介绍Transformer的模型结构,包括卷积下采样、位置编码、自注意力等关键模块。

第13章 Conformer流识别,介绍Conformer的模型细节,包括卷积模块、相对位置编码等,以及基于Conformer的流识别过程。

第14章 语音大模型,介绍大语言模型(LLM)、音频离散化、语音文本对齐、流式打断、对话大模型等内容。

第15章 WeNet实践,介绍使用WeNet进行CTC/Attention模型的训练和解码过程。

第16章 工业应用实践,介绍如何封装语音识别动态库,如何调用和调优,以及嵌入式移植和端侧部署过程。

本书还配套PPT教学课件,读者可访问获取:http://speech.xmu.edu.cn/course。

上一篇:暂无 下一篇:荐读 |《语音识别:原理与应用》之语音特征提取
关键词: 声纹识别 声纹鉴定 社矫认证 社保认证 远程认证 动态口令 声纹密码 语音识别
友情链接: 智能语音实验室