PG电子 (中国) 官方网站 - 驱动智慧未来

PG电子 (中国) 官方网站 - 驱动智慧未来

语音识别技术_

作者:小编 日期:2025-03-26 06:24:40 点击数: 

  模型初始化 用Viterbi 算法求 状态序列 根据状态序列估 计输出分布参数

  • HMM的缺陷: 基于HMM理论的语音识别系统虽然取得了可喜的成绩, 但并不是完美的,在识别率和系统鲁棒性上仍有很多不足, 目前最成功的语音识别软件仍无法满足广大用户的需要。

  • 未来10年内,语音识别技术将进入工业、家电、通信、汽 车电子、医疗、家庭服务、消费电子产品等各个领域。 --语音打字机 --数据库检索 --特定的环境所需的语音命令

  • 需对时间归整函数C作某些限定,以保证不违背语音信号各部分特 征的时间顺序。 ⑴单调性:

  一般取 Wn (1) = Wn ( 3) = 1,Wn ( 2 ) = 2 因此,规整函数的点由I,J决定 ⑶ 回溯求出所有的匹配点对:根据每步上一步的最佳局部路 径,由匹配点对(I,J)向前回溯一直到(1,1)

  • 以上属于DTW算法的模式匹配过程,模板建立的好坏直接 影响匹配结果。 • DTW算法中的模板训练方法: ⑴ 偶然模板训练法 当识别词不太大,且系统为特定人设计时,可以采用一 种简单的多模板训练方法。

  (1) 线性预测参数及其判生参数 (2) 语音频谱直接导出的参数 (3) 混合参数 (4) 其他鲁棒性参数

  ・ 模式匹配的方法: (1) 概率统计方法; (2) 动态时间规整方法(DTW) (3) 矢量量化方法(VQ) (4) 隐马尔可夫模型方法(HMM) (5) 人工神经网络方法(ANN)

  • 算法的提出:简单的讲输入模板与相应的参考模板直接做 比较存在缺点。 • 假设参考模板的特征序列 X = { x , x ,L, x },输入语音特征矢 量 Y = { y1 , y2 ,L, yJ } ,I≠J

  把时间规整和距离测度的计算结合起来的一种非线性规整技 术,是一种匹配算法。

  • 实验中把MFCC和一阶差分参数合并为一个矢量,作为一 帧语音信号的参数。

  ・ 说话人识别系统由预处理、特征提取、模式匹配和判决等 几大部分组成,除此还应包括模型训练和判决阈值选择等 部分

  训练 语音输入 预处理 特征提取 识别 模式匹配 判决 识别结果 参考模 式库

  (1) 能有效区分不同的说话人,又能在同一说话人的语音发生变化时保 持相对稳定; (2) 易于从语音信号中提取; (3) 不易被模仿; (4) 尽量不随时间和空间的变化

  • 将每个词的每一遍语音形成一个模板 • 在识别时,待识矢量序列用DTW算法分别求得与每个模板 的累计失真,判别属于哪一类 • 优点:建立模板简单 • 缺点:顽健性不好

  PG平台 PG电子官网

  ⑵顽健模板训练法: • 每个词重复说多遍,直到得到一对一致性较好的特征矢量 序列,在沿DTW路径上求平均。 • 训练过程:只考虑某个特定词

  训练 语音输入 预处理与数字化 特征提取 识别 模式匹配 后处理 结果 参考模 式库

  • 一个完整的语音识别系统可大致分为四部分: (1)语音信号的预处理 (2)语音特征提取 (3)声学模型与模式匹配(识别算法) (4)语言模型与语言处理 • 语音识别系统的分类(见下表): 按发音方式分 按词汇量大小分 按说话人分 从识别方法分

  • 定义一种最小累计失真函数g ( i, j ) ,表示到匹配点对(i,j) 为止的前面所有路径中最佳路径的累计匹配距离。

  • • • • 基于DTW的识别系统----适用于孤立词的识别 优点:系统比较稳定 应用场合:命令识别 实际应用:语音控制玩具,语音控制门锁

  ②动态规划的计算量太大; ③没有充分利用语音信号的时序信息; ④求累积距离时,对测试模板的各帧给予相等的权重

  • DTW算法的改进: 例如: 端点放宽的DTW方法,允许两边端点有n帧自由; 非线性取样,即参考模板和测试模板的帧间隔是非均匀的

  分类依据 语音的发音 方式 孤立词语音 识别系 统 连接字语音 识别系 统 非特定人语 音识别系 统 说话人 词汇量的大 小 小词汇量 (10-100) 识别的方法 动态时间规 整(DTW) 矢量量化 (VQ) 隐马尔可夫 模型 (HMM ) 隐马尔可夫 模型 (HMM)、 人工神经 网络 (ANN) 应用场合

  1.语音识别的概述 2.语音识别的应用 3.基于DTW的语音识别技术 4.基于HMM的语音识别技术 5.说线.情感信息处理

  • 语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相 应的文本或命令的技术。 • 语音识别是一门交叉学科,涉及计算机、通信、语音语言学、数理统 计、信号处理、神经生理学、和人工智能等学科。 • 语音识别按任务的不同可以分为四个方面: ⑴说话人识别 ⑵关键词检出 ⑶语言辨识 ⑷连续语音识别 • 语音识别技术的困难:语音信号具有时变性;目前没有模型能完全描 述发音模型;方言或口音会降低语音识别率、背景噪音、口语等问题。

  • 不足: -模板过于简单 -识别率有待提高 -初始化速度过慢 -匹配距离矩阵中对应分数的数值过于接近

  • 隐马尔可夫模型的基本概念在第10讲中已作介绍 • 当前基于HMM的语音识别研究重点:

  • 优点:比偶然训练法可靠 • 缺点:模板建立麻烦; 对SI系统,不够充分

  Wn 为加权函数,需考虑两个因素: ⑴ 根据第n对匹配点前一步局部路径的走向来选取; ⑵ 考虑语音各部分给予不同权值,以加强某些区别特征。

  的第i ( n ) 个特征矢量与待测模板的第j ( n ) 个特征矢量 构成的匹配点对。

  • 实验: 实验模板:”a,b,c,d,e,你好“的wav文件(11k采样, 单声道,精度8位) 特征参数为MFCC 实验中采用的Makov链:

  ・ 说话人识别方法的基本原理与语音识别相同,也是根据从 语音中提取的不同特征,通过判断逻辑来判定该语句的归 属类别。但它也有自己的特点: ① 语音按说话人划分,因而特征空间的界限也按说话人划 分; ② 选用对说话人区分度大,对语音内容不敏感的特征向量;

  • 本实验用MFCC做为语音的特征参数 标准的MFCC只反映语音的静态特性,而人耳对语音的动 态特征更为敏感,通常用差分倒谱参数来描述这种动态特 征。 差分参数的计算公式:

  • 改进后的程序: -通过麦克风输入语音(11k采样,单声道,精度16 位) ,实时识别 • 实验演示

  实验结果分析: • 分析识别率: ”a,b,c,你好“识别正确,”d,e“识别错误。 • 分析匹配距离矩阵dist:

  • 主要原因: ① 语音信号处理部分没有能从原始语音信号中提取抗干扰 能力强的语音特征; ② HMM并没有准确地对语音信号进行描述; ③ 语言环境复杂使语言模型的建立变得困难

  HMM本身的缺陷: • 对状态持续时间建模不力 • 在状态序列给定的条件下,观测符号之间条件独立 • 基于帧的观测符号在特征提取上的限制 • Markov链理论,在本质上并非语音信号的完美解释

  • 对于孤立词(或命令)识别,DTW算法与HMM算法在相同的 环境下,识别效果相差不大。 • 优点: -可靠性强 -复杂度低 • 关于DTW理论已作介绍

  • 实验模板:”a,b,c,d,e,你好“的wav文件(8k采样, 单声道,精度8位) • DTW算法采用两步约束:

  PG平台 PG电子官网

移动商城

移动商城

抖音店铺二维码

抖音店铺二维码

快手店铺二维码

快手店铺二维码

手机:13863256776

邮箱:xinxiangart@qq.com

地址:上海市静安区万荣路83-105(单)

Copyright © PG电子官方版权所有