您好,欢迎来到99网。
搜索
您的当前位置:首页说话人识别技术探讨

说话人识别技术探讨

来源:99网
维普资讯 http://www.cqvip.com 文章编号:1002-8684(2008)01-0052-04 说话人识别技术探讨 高会贤1,2,郑晓势 ,赵彦玲: (1.山东轻工业学院,山东济南250353;2.山东省计算中心,山东济南250014) ・综述・ 【摘 要】介绍了说话人识别技术的基本概念和发展历史,列举并比较了几种常用的特征提取和模式匹配方法,总 结了当前存在的问题并对其发展进行了展望。 【关键词】说话人识别;特征提取;模式匹配 【中图分类号】TN912 【文献标识码】A Studies on Speaker Recognition GAO Hui-xian 一,ZHENG Xiao-shi ,ZHA0 Yan-ling2 (1.Shandong Institute of Light Industy,Jirnan 250353,China; 2.Shandong Computer Science Center,Jinan 250014,China) 【Abstract】Basic concepts and the history of speaker recognition are introduced,then some features and current pattern matching technologies are compared. I1he potential trends in research.also outlined. development and application are 【Key words】speaker recognition;feature extraction;patten matrching 1 引言 说话人识别(Speaker Recognition,SR)技术是通过 话音区分说话人,从而进行身份鉴别与认证的技术。与 说话人自动识别研究始于20世纪60年代,识别 方法从初期根据人的听觉和声谱进行比较,发展到简 单的模板匹配、动态时间规整法和许多现代的统计模 式识别方法,如神经网络和隐马尔可夫模型(Hidden MarkOV Model,HMM)法等。一些先进的技术,如线性 其他利用人体本身的生物特征(如指纹,DNA,眼虹膜) 进行身份鉴别的方法相比,SR使用的语音信号具有获 取简单、方便的特点,故具有广泛的应用前景。 根据识别任务的不同DI,SR可分为说话人辨认 (speaker identification)和说话人确认(speaker veriifca— tion)2种。说话人辨认是指对某段语音判断为若干人 中的哪一个所说的,是“多选一”问题,其最重要的性能 预测分析和倒谱技术等也应用于说话人识别研究,给 语音信号处理领域带来了突破。研究的目标也从5-10 人的小集合发展到5o0多人的大集合。一些技术已走 出实验室,进入了实际应用。如AT&T公司推出了智慧 卡,欧洲完成了CAVE计划、PICASSO计划等。 指标是识别率,即正确识别出说话人是谁的百分比。说 话人确认是要对某段语音确认其是否为指定的某个人 所说的,是“二选一”问题,可选决策只有接收或拒绝。 根据与语音文本的相关性 ,SR又可分为文本相 关的(text—dependent)、文本无关的(text—independent) 和文本提示的(text—prompted)3种方式。文本相关的 2 特征提取 不同说话人的差异体现在很多方面,既有先天、后 天因素,又有生理、心理因素。语音信号具有易变性,与 说话人所处的环境、情绪、健康状况等有关,并且是语 音内容特征与说话人个性特征的混合体。但在理想 情况下,选取的特征参数应满足的规则有:(1)能有效 区分不同说话人,又能在同一说话人的语音发生变化 SR要求说话人按规定的文本内容发音,文本无关的 SR则不需要事先确定语音内容。这两种类型都有一个 缺点,即无法区分一个声音是现场发声还是录音。文本 时保持相对稳定;(2)易从语音信号中提取,易于计算; (3)不易模仿;(4)尽量不随时间和说话人健康而变化; (5)输入语音受传输通道和噪声影响时,具有较好的 顽健性。 提示的SR可有效避免此情况发生l引,可随机或用其他 方法生成提示文本,避免假冒者事先录音。 国!!!妻墼羹 生墓墼鲞篁 塑 维普资讯 http://www.cqvip.com

童堡 (v) ⑨0@@ Q@@腧∞@0⑨ I/ 目前还未找到能将语音特征和说话人个性特征很 3.1.1 l‘W 好分离的方法,但语音信号的信号特征仍从不同的侧 面反映了说话人的个性,依然是说话人个性特征的重 要来源。 DTW是典型的基于模板匹配模型的方法,采用了 动态规划的思想。DTW算法的基本原理是要找到一个 最佳的时间规整函数,使待识别语音模式时间轴非线 SR研究中已使用过的特征参数主要有语音帧能 量、基音及其共振峰、线性预测系数(Linear Prediction Coefficient,LPC)、倒谱系数等。倒谱包络特征特别是 性映射到参考模式时间轴,最终使总的累计失真量最小。 DTW算法能保证参考模式和待识别模式沿时间 轴动态匹配,因其应用于语音识别中成功解决了语音 倒谱特征使用较多,一些实验已证明用倒谱特征的识 信号特征参数序列比对时长不等难题,DTW算法常用 别性能较好,且稳定的倒谱系数也易提取。目前SR中 较常用的特征参数主要是线性预测倒谱系数(Linear Prediction Cepstrum Coefifcient,LPCC)和Mel频率倒谱 系数(Mel—Frequency Cepstrum Coefficient,MFCC) 。 与基于线性预测的LPCC参数相比,MFCC参数的突 出优点是不依赖全极点语音产生模型的假定,考虑了 人耳的听觉感知特性,抗噪声和抗频谱失真能力较强, 从而提供识别系统的性能。但在系统实时处理上, MFCC参数计算有2个缺点:实时性难以保证,主要是 因计算量大,计算时间长;精度难以保证,原因是计算 过程中采用了快速傅里叶变换(Fast Fourier Transform, F盯)和对数操作。 虽然说话人语音特征提取已由简单统计特征的提 取发展到涉及倒谱分析、时频分析、模糊理论、遗传算 法、小波分析等现代信号处理方法,但说话人语音特征 的提取仍是一个有待解决的重要问题。 3 模式匹配方法 SR的基本原理就是为每个说话人建立一个能描 述其语音特征的模型,不同的说话人语音特征模型结 构对应不同的说话人模式匹配(pattern matching)方 法。常用的方法大致可分为4类:基于模板匹配模型的 方法、基于概率模型的方法、基于判决模型的方法和基 于混合模型的方法。这些方法都有各自的优缺点,可根 据不同的应用环境而采用相应的方法。文献【5】比较了 HMM,动态时间规整(Dynamic Time Warping,DTW) 和矢量量化(Vector Quantization,VQ)3种方法,指出 了在不同情况下的几种识别结果。 3.1基于模板匹配模型的方法 基于模板匹配模型方法的原理是,在训练阶段从 每个说话人训练语句中提取出特征参数,构成说话人 参考模板;在识别阶段,将测试特征参数序列与相应 的参考模板比对,根据二者的匹配程度作出相应的判 决[61。DTW和VQ属于这类方法。 于与文本有关的SR系统。基于DTW算法的SR方法 计算简单、识别速度快,缺点是需要精确的端点检测。 3.1.2 VQ方法 VQ是一种高效的数据压缩技术,是标量量化的自 然发展[61。VQ技术广泛应用于语音编码、语音识别与合 成、图像信号压缩等领域,成为数字信号处理的有力工 具,并已在SR中广泛应用。 VQ的基本原理是将矢量在多空间进行整体量化, 从而在信息量损失较小的情况下压缩数据量。SR中可 用一个从说话人训练序列中提取的特征矢量聚类生成 的码本来表征待识别的说话人。识别时,首先对待识别 的语音段提取特征矢量序列,然后对系统已有的每个 码本依此进行矢量量化,计算各自的平均量化矢量。选 择平均量化矢量最小的码本所对应的说话人作为系统 识别的结果。 用VQ建立识别模型,可大大减少数据存储量,又 可避免困难的语音分段和时间归正。当可用训练数据 量较小时,基于VQ的方法比连续的HMM方法有更大 的鲁棒性,可用于文本无关的SR。但每个说话人的码 本只描述了该说话人语音特征在特征空间聚类中心的 统计分布情况,在测试语音很短的情况下,这种方法的 识别率将会急剧下降。 3.2基于概率模型的方法 与模板匹配模型相比,概率统计模型具有更大的 灵活性。SR可表示为根据概率分布为说话人建模,识 别时根据概率或似然分布来判别。这类方法优点是不 用对特征参数在时域上进行规整,适用于文本无关的 SR。缺点是获得准确的概率统计模型要经过长时间训 练,而且训练和识别的计算量也较大。 3.2.1 HMM方法 HMM是一种用参数表示的用于描述随机过程统 计特性的概率模型。基于HMM的SR的原理是,先建 立各说话人的HMM模型,训练模型参数,然后把待识 别人的语音信号与各模型进行匹配,根据匹配概率作 I,一nl 堕妻蕉垂 生蔓墼鲞蔓!塑 维普资讯 http://www.cqvip.com nn语音技术 ⑨6@@ @@响响⑨0⑨ 出判决。此方法的关键是将语音与模型联系起来,即选 择合适的模型对象。 用HMM技术来描述语音随时间变化的情况,有 效表征了语音信号声学特性的本质,在文本相关的SR 中取得了很好的识别率翻。由于此方法统计描述特征矢 量序列和信号,只要训练数据充分、训练时间足够长, 系统的识别效果比基于VQ的要好,但模型的训练时 间会加长,HMM对噪声的鲁棒性较低,实际环境下的 识别性能显著降低。 3.2.2高斯混合模型方法 高斯混合模型(Gaussian Mixture Model,GMM)本 质上是一种基于参数估计的概率统计模型[81。将 GMM方法应用于SR的依据是任何形状的密度分布 都可由GMM平滑近似。GMM模型认为每个说话人的 语音特征在特征空间中都形成特定的分布,且可用多 个高斯分布组合对每个说话人的语音特征分布进行拟 合,不同的说话人可用不同的高斯分布组合来表征。 GMM方法在应用时遇到的主要问题是如何根据 有限数据产生一组GMM模型,通用的训练方法是最 大似然(Maximum Likelihood,ML)估计,可采用期望最 大化(Expectation Maximization,EM)算法求解。基于 ML规则,模型参数不断更新,直到观察序列的概率提 高到某些极限点。然而实际上,由于爬山特征,任意的 原始模型参数估计通常都会导致局部最优。由于GMM 方法在应用中取得了很好的识别性能,依然是与文本 无关的SR的主流方法。 3.3基于判决模型的方法 相对于概率统计模型而言,基于判决模型的方法 通常是指神经网络(Neural Network,NN)和支持向量 机(Suppo ̄Vector Machines,SVMs)的方法。 3.3.1 NN方法 NN模仿人脑的信息处理机制,把大量结构非常简 单的计算单元相互连接起来,实现高度并行和分散的 信息处理,适合于SR这类与人的感知有关的信息处 理问题[91。 引入NN用于SR的最大特点在于不用建模和对 输入数据的兼收并蓄。因其高度的并行性,NN能进行 快速判决并具容错性,适合于解决SR或语音识别这 类难以用算法来描述而又有大量样本可供学习的问 题。目前已有许多种人工神经网络用于SR,主要在说 话人个性特征提取和SR 2个层次。例如,BP网络、 RBF网络、人工神经预测网络、自组织网络。 I !!!妻蕉童 生墓墼鲞墓 塑 NN模型对模式类别数目小,对分类困难的模式识 别问题有很好的效果。然而,NN模型用于SR面临的问 题是:如果用神经网络作为分类器,网络规模大,分类 任务复杂,网络不易收敛,训练时间相应加长,且性能下 降。如果为每一对说话人建立神经网络,网络数目很大, 结构复杂,且每增加一个说话人,必须相应再训练网络。 3.3.2 SVMs方法 SVMs的基本思想是从训练集中选择一组特征子 集,即支持向量,使得对特征子集的线性划分等价于对 整个数据集的分割[101。 SVMs是基于结构风险最小化的机器学习模型,是 二元分类器,将SVMs用于说话人辨认是多元分类问 题。解决方式有2种:一种方式是“一类对余类”,每个 SVMs将某一类样本和剩余其他类的所有样本分开,其 缺点是单个SVMs训练规模较大,训练数据不均衡,系 统不易扩展;另一种方式是“成对分类”,每两类间训练 一个SVMs将之分开,其虽克服了第一种方式的缺点, 却也出现了新的问题,即同时存在SVMs的数量较多。 由于SVMs发展时间较短,其理论体系和算法实 现有待发展和完善,且语音信号数据量大,当用SVMs 方法进行SR时,存在算法复杂、运算量大和稳定性不 高等缺点。 3.4基于混合模型的方法 由于上述每种方法各有利弊,将两种或两种以上 的模型进行混合的方式也随之出现并成为当前研究的 热点。目前采用的混合模型有:GMM和VQE“1,HMM和 SVMs ,VQ和NNt旧,GMM和SVMs等模型的混合,但 混合模型存在的问题也很多,像如何提高识别性能、降 低计算复杂度、减少计算量等。 4 结论 SR技术已进入实用阶段,但与人类的听觉能力仍 存在很大差距,问题大致有: (1)尚未找到简单可靠的说话人语音特征参数。 前面已经提到,语音信号是语音内容特征与说话人个 性特征的混合体,到目前为止,还没有很好的方法将说 话人的个体特征从语音特征中分离出来,也没有找到 简单的声学参数来可靠地识别说话人。 (2)语音信号的变异性。由于说话人语音特征具 有时变特性,即使对同一说话人和同一文本,语音信号 也有很大变异。再加上传输语音的通信信道的时变效 应问题也是语音信号产生变异的重要方面。 维普资讯 http://www.cqvip.com 语音技术nn ⑨6@@ @@响响⑨0⑨ \=f (3)语音特征参数空间有限。当待识别的说话人 【6】SOONG F K,ROSENBERG A E,RABINER L R.Vector quantization approach to speaker recognition[C]//Proceed- ings of ICASSP.Tampa:IEEE,1 985:387-390. 很多时,特征子空间有可能产生交集,从而降低系统正 确识别率。 (4)识别性能在噪声环境下很难保持鲁棒性。很 多SR系统在实验室环境下达到很高的识别率,但在 实际应用中,由于环境条件的变化和噪声的影响,识别 性能明显下降。 【7】REYNOLDS D A,CARLSON B.Text-dependent speaker verification using decoupled and integrated speaker and speech reconigzers[C]//Proceedings of Eurospeech.Madrid: ISCA,1995:647—650. (5)应用中还受到伪装发音、播放录音等问题的 困扰。 【8】REYNOLDS D,RICHARD C R.Robust text-independent speaker identification using Gaussian mixture speaker models[J].IEEE Trans.on Speech and Audio Processing, 1995,3(1):72—83. 此外,目前SR应用的普遍性较强,而针对性不 够。因此,未来SR研究将从说话人个性特征的提取方 【9】YEGNANARAYANA B, REDDY K S, KISH0RE S P. Source and system features for speaker recognition using 法和识别算法人手,从语音信号中寻找具有较好鲁棒 性和实时性的说话人语音特征以及具有更好的实效性 的识别方法。另外考虑到目的说话人识别技术的市场 性不够,在以后的研究中应针对实用中的某一方面进 行深入探讨。 参考文献 AANN models[C]//Proceedings of ICASSP.Salt Lake City: IEEE.2001:409—413. 【10J邓乃杨,田英杰.数据挖掘中的新方法:支持向量机【MJ. 北京:科学出版社,2O04. 【l1】PELECANOS J,MYERS S,SRIDHARAN S,et a1. Vector quantization based Gaussian modeling for speaker 【1】CAMPBELL J.Speaker recognition:a tutorial[J1.Proceed- ings of the IEEE,1997,85(9):1 437—1 462. veriifcation fclf Proceedings of ICPR.Barcelona:IAPR, 200o.3:294—297. 【2】REYNOLDS D A.An overview of automatic speaker recognition technology【C Proceedings of ICASSP.Orlan- do:IEEE,2002,4:4 072-4 075. 【1 2J CAMPBELL W M.A SVM/HMM system for speaker recognition【c]//Proceedings of ICASSP.Hong Kong: IEEE,2003:209—212. 【3】MA'ISUI T,FURUI S.Concatenated phoneme models for text—variable speaker recognition[C]//Proceedings of ICASSP.Minneapolis:IEEE,1 993:39 1—394. 【13】李战明,王贞.矢量量化与神经网络相结合的说话人识 别系统【J1.计算机工程与应用,2006(15):204—230. 作者简介 高会贤,硕士,主要研究方向为多媒体技术、语音信号处理; 郑晓势,博士,研究员,主要研究方向为计算机数字图像处 【4】REYNOLDS D A.Experimental evaluation of features for rrobust speaker identiifcation[J].IEEE Trans.on Speech and Audio Processing,1994,2(4):639—644. 【51 YU K, MASON J,OGLESBY J.Speaker recognition using hidden Markov models,dynamic time warping and 理、模式识别、多媒体; 赵彦玲,硕士,助理研究员,主要研究方向为多媒体技术、数 字图像处理、语音信号处理。 【责任编辑】侯莉 【收稿日期】2007-10-09 vector quantization[J].IEEE Trans.on Vision,Image and Signal Processing,1995,142(5):313—318. (上接第51页) 明,系统可实现多串口同时准确、快速同步双向数据传 输和算法处理,有一定的应用推广价值。 参考文献 制图局建立的,于1987年取代了当时GPS所采用的 世界大地坐标系统WGS一72而成为GPS使用至今的 坐标系统。GPs所发布的星历参数就是基于此坐标系 统的,WGS属于地球坐标系。空间点在WGS一84坐标 系中主要是用经度曰,纬度 和大地高日表示。 【1】贾广雷.多线程技术及其在串口通信中的应用【J】.计算 机科学,2002,29(8):148—149. 【2】张炜.水下和海底大地坐标的精确测量【J1.应用科技, 2002.30(9):19—21. 4 结语 本文从多串口数据采集和数据处理两方面介绍了 水下定位系统软件部分功能的实现。经过多次实验证 作者简介 田甜,硕士研究生,主要研究方向为通信与信息系统。 【责任编辑】史丽丽 【收稿日期】2007-09-17 111查 堂 生蔓墼耋蔓 塑国 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 99spj.com 版权所有 湘ICP备2022005869号-5

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务