查字典论文网 >> 基于关键词识别的语音到手势的转换探究

基于关键词识别的语音到手势的转换探究

小编:沈文江

1 引言

我国听力语言障碍者的人数已约略2 780 万人,占据中国人口总数的2.14%。对于聋哑人来说,手势是他们进行人际交流和正常生活、工作的一种重要工具。因此,手势的合成对健全人与听力言语障碍者的正常沟通和交流具有重要的作用。近些年来,基于计算机视觉的手语合成[1]以其独特的交互方式受到科研人员越来越多的重视,是现在手语合成研究的热点。其中,文献主要是通过VC 和SQL 数据库的无缝连接,设计开发了以数据手套为基础的言语残障患者医疗辅助系统,它具体是利用单只数据手套采集聋哑人手语的完整信息,并在预先建立的手语翻译信息对比数据库中查询、搜索,接着依据手语的新定义方式,采用特定的显示办法将查询、搜索得到的手势图片重现,进而完成手语的合成;文献是基于运动跟踪的方法,通过数据手套开发、利用人体上肢运动的采集程序对手势进行实时采集,接着,在手语编辑系统中运用控制点操作的办法对这些手语进行处理,然后将其虚拟显示,完成手语合成系统的实现。然而,目前现有的研究大多都只针对手语合成的问题展开研究,并没有考虑到聋哑人与正常人之间的交流沟通问题,忽视了让听力障碍者能够听到声音的情况,缺乏语音到手势的转换研究。

在语音识别技术的持续发展中,从特定人孤立词语音识别到非特定人连续语音识别的研究,其识别的算法已日趋成熟,但在语音到手势转换方面的研究还有所欠缺。文献利用Speech SDK 语音识别系统,以及虚拟人模型的运动控制方法,基本实现了语音到手势的转换演示,但其识别精度不高,视觉应用上存在一定的缺陷。正常人与聋哑人交流的关键在于能够让聋哑人理解正常人表达的关键意思,本文将关键词识别与手势合成相结合,提出了一种语音关键词到聋哑人手语手势的转换方法,建立了《中国手语》中数字、字母等手语的三维手势模型,采用关键词识别技术识别出语音信号中包含的手语关键词,利用OpenGL 播放对应的手势,从而实现了语音到手势语的转换。语音信号的识别,以及经过语音分析,提取并建立的手势与语音相对应的文本字典将语音识别与手势模型的重现过程结合起来,实现了语音到静态手势的转换。实验结果显示,本文提供的方法在字母、数字等语音关键词的识别效果上可以达到90.1%,在合成手势的可懂度上,其平均主观评定得分(Mean Opinion Score,MOS)为4.4 分,能够直接用于健全人与聋哑人相互间的正常沟通。

2 语音到手势转换的总体框图

语音到手势的转换主要由字母、数字和常用字词等关键词定义的手势的三维手势建模过程,关键词识别过程,手势模型的播放过程三部分组成。首先,根据《中国手语》中哑语字母、数字和常用词汇定义的手势,采用三维建模工具3DS MAX建立了这些手语词汇对应的静态三维手势模型。对输入的语音信号,采用基于HMM的关键词识别方法识别出语音信号中包含的字母、数字和常用词汇等关键词;最后根据识别的结果,采用OpenGL图形库函数播放出关键词对应的手势。从而实现语音到手势的转换。

3 基于HMM的关键词识别

关键词识别(Keyword Spotting,简称为KWS)指能够在说话人的连续语音信号中区别和肯定表达其话语(可能是大多另外的词,也可能是说话人的非话语语音和说话时的背景语音等)中关键信息的少量特定词。关键词识别包括关键词检出(keyword identification)、关键词确认(keyword verification)两个基本步骤。关键词检出通常是判别输入的语音信号是否包括有事先确定的语音关键词,而关键词确认主要是判定输入的语音信号是否是假定的语音关键词。目前,关键词识别通常采用基于隐马尔可夫模型(Hidden Markov Model,HMM)的关键词识别技术。

3.1 关键词检出

关键词识别中最紧要的一步就是关键词检出,它主要是通过最优路径搜索算法来得出每一待选语音关键词与输入语音信号的匹配百分比。因此,从待选的语音关键词中抽取一个,使它和连续语音中某一处信息的后验或然率可以达至峰值,是关键词检出的目的。

3.2 关键词确认

由于在关键词检出步骤中所得到的待选语音关键词,不能明确肯定它就包括在待识别的连续语音信号中,因此,必须要通过关键词的确认过程来断定它是否真的就存在于语音信号中。而通常采用的确认办法就是把维特比解码时最优路径的平均百分比作为确认的前提条件,唯平均百分比是在特定临界域的判定为关键词。具体地来讲,一般的关键词确认方法大多都采用基于统计假设检验的办法,而对照零假设H0 和备择假设H1 所得比值的差异性大小就是它的基本依据。

3.3 关键词识别算法

隐马尔可夫模型理论具有双重随机性,这里,采用基于HMM的关键词识别技术,是以前向、后向搜索得到的关键词识别算法为基础的。这里,关键词识别过程中的HMM训练算法主要是以Viterbi 对准的Baum-Welch 重估算法为基础的,其具体步骤如下:

(1)采用部分的手工标注语音数据训练出关键词和Filler 模型(即:词表外模型、静音模型和停顿模型的总称)的种子模型。其中,将关键词的Baum-Welch 重估算法作为这一步骤训练的必要算法。

(2)利用训练集中的全部语音数据训练最终的模型,即:依据种子模型运用Viterbi 算法来对准训练的语句,并得到语句在当前模型下的状态对准信息;接着,采用此状态对准信息对语音信号进行分割处理,并运用Baum-Welch 重估算法以及分别属于不同关键词和Filler模型的语音对模型参数进行重估计算。

4 手势模型库的创建

4.1 人手模型的结构分析

人手是由一些软组织构成的复杂度比较高的机械结构。因此,建立一个手形的物理结构模型并对其进行具体的结构分析是创建人手模型之前的必要步骤。这里所要建立的手形模型结构就是将人手简化点线结构模型,由图能够得到,单只手中,除大拇指外的每个手指骨节都是有四个自由度的,而拇指处有五个自由度。由于手在空间还有六个自由度,因此,就单只人手而言,一共有二十七个自由度。人手平放置于桌面时所处的位置,x 轴表示中指所处的位置方向,y 轴表示掌心平面过腕关节并和x 轴垂直的方向,z 轴表示过腕关节和手掌平面垂直向上的位置方向。人手手指的某一指节最接近的骨节决定了其相对于掌心平面的运动,可以将其表示成该指骨关节的旋转角度。这里,在每个手指骨节处都定义了局部坐标系。因此,根据对人手结构特征的分析,可以得到,单手中,除大拇指外的四根手指分别是由首尾相连且已知长度的四条线段组成,手指的末端处都连接在腕关节上;四个手掌骨之间的相互夹角是明确的,而且一直在同一个平面;拇指直接连在腕关节上;每个手指骨的指节活动平面都是与掌心平面垂直的。

4.2 手形的相似度计算

为了便于手势模型库的创建,减少显示误差和评测误差,需要手形相似度的计算。这里,相邻手势之间的相似度是采用加权欧式距离来进行比较的。在处理计算的过程中,计算指标是被看作具有一定代表意义的部分手势的关节自由度。此外,手形之间是否具有相似性,是可以根据具体的上、下限值来做判定的。如果SAB 的距离值在标定的上限值之上时,说明A、B 两个手形具有一定的差异性,就需要进行同化处理;如果SAB 的距离值在标定的下限值之下时,说明A、B 两个手形具有一定的相似性,就需要进行异化处理;如果SAB 的距离值在标定的上、下限值之间,则说明A、B 两个手形是不会相互影响的。其中,可以依据对中国手语中手势状态的变化进行观察,来分辨出差异性最大、最小的手形姿态,接着,结合公式处理得到相应标定的上、下限值。

4.3 手势库的建模及播放

根据在上面两小节中,针对人手模型的结构分析、三维坐标系的建立、手指各关节弯曲度的计算、手形相似度的计算,可以更便捷有效地完成手势模型库的建立,减少关键词与手势模型的匹配误差。首先,手势语文本是从《中国手语》中选择了11 个数字(0~10)、26 个字母(A~Z)和20 个常用字词(垂直/直角,元旦,负号/减号,好,坏,)作为关键词;然后,利用3DS MAX 建模工具创建了由57 个三维手势构成的模型库;其中,部分手势模型如图6 所示。对于建立的手势模型,采用OpenGL 进行播放。在手势模型的显示过程中,为避免3D模型文件在OpenGL环境下读取文件数据的复杂性、模型显示算法的不精确性,将采用3D MAX 建立的手势模型输出为图片格式。接着,利用OpenGL 的图形库函数读取图片格式的手势模型的图形像素数据,完成手势模型的显示。

5 实验结果及分析

5.1 关键词识别

本文采用隐马尔可夫模型工具箱(Hidden Markovmodel Toolkit,HTK)搭建了关键词识别系统,训练了37 个关键词及非关键词的整词模型和静音、停顿的声学模型。声学模型的特征参数采用包括能量在内的13 维Mel 频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)及其一阶差分和二阶差分,形成133 维的特征向量。语言模型采用实现的普通话语音识别系统的语言模型,该语言模型利用HTK 的Trigram 语言模型工具,从一个大规模的文本语料库中构建,文本语料库由10 万句新闻语料构成。

实验中,录制了办公室环境下四男四女,共8 位非特定说话人的592句语音(单声道,16位量化精度,16 kHz的采样率,保存为.wav 格式),这些语音包含11 个数字和26 个字母。随机选取其中的481 句语音作为训练语音,111 句语音作为测试语音,运用交叉验证的方法分别进行了8 次测试,测试的关键词识别结果如图7 所示。由图7 可以看出,关键词识别的平均识别率达到90.1%。由于训练语料只有481 句,不能充分覆盖说话人的各种发音现象,因此关键词识别结果未能达到100%。

5.2 转换的手势的精确度评测

本文的目的是实现语音到手语的转换,转换的手势能否准确表达关键词的含义,除了准确的关键词识别外,还取决于播放的手势能否表达出关键词的含义。由于播放的手势是利用手势模型合成的手势图像,难以客观衡量其表达关键词的精确度,因此本文借鉴合成语音质量评测中的平均意见得分(Mean Opinion Score,MOS)方法,采用主观评测的方法对播放的手势进行主观打分,以评测语音到手势转换的准确度。选择15 位熟悉手语的普通话评测者作为被试。评测时,给被试播放包含数字和字母的37 句普通话语音,同时显示识别出的关键词对应的手势,让被试根据听到的关键词,对显示的手势与关键词的匹配程度按的5 分制标准打分,并统计出所有被试的平均得分,计算出相应的标准差,结果如表2 所示。从表2 可以看出,关键词转换的手势的平均MOS 得分为4.4 分,标准差为0.3 分,表明转换的手势能够表达关键词的含义。

6 结束语

针对听力言语障碍者提出了一种语音到手势的转换方法,对手语中的手势建立三维手势模型。采用关键词识别技术识别出语音中相应的关键词,进而利用OpenGL 图形库函数播放从语音中识别出的关键词对应的手势,从而实现语音到手势的转换。进一步的工作包括增加关键词的识别数量以及动态手势的建模与播放。同时在关键词识别中,增加说话人的数量和训练语料的数量,以提高关键词识别的准确率。

热点推荐

上一篇:基于工作过程系统化课程体系在“ 软件工程”课程探究

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文

2023年铁路信号工工作心得大全(20篇) 基督教圣诞节开幕词最新串词实用