DAV数字音视工程网_会议系统、指挥调度、演艺科技、智能楼宇等音视频工程信息行业门户

DAV首頁
數字音視工程網

微信公眾號

數字音視工程網

手機DAV

null
null
null
卓華,
招商,
null
null
null
快捷,
null

我的位置:

share

語音識別技術之自適應技術

來源:網絡        編輯:ZZZ    2024-02-22 10:05:56     加入收藏    咨詢

咨詢
所在單位:*
姓名:*
手機:*
職位:
郵箱:*
其他聯系方式:
咨詢內容:
驗證碼:
不能為空 驗證碼錯誤
確定

  1. 語音識別技術中的自適應技術簡介

  語音識別中的自適應,即針對某一個說話人或者某一domain來優化語音識別系統的識別性能,使得識別系統對他們的性能有一定的提升。語音識別的自適應技術的目的是為了減少訓練集和測試集說話人或者domain之間差異性造成的語音識別性能下降的影響。這種差異性主要包括語音學上的差異還有生理上發音習慣上不同導致的差異性等等。自適應技術主要被應用于語音識別技術相關的產品,還有針對VIP客戶的語音識別等。

  上述的差異性問題,它容易造成說話人或者domain無關的識別系統性能上不好,但是如果針對該說話人或者domain訓練一個相關的識別系統,那么需要收集很多數據,這個成本是很高的。而語音識別中的自適應技術作為一種折中,它的數據量較少,并且性能上也能達到較好的效果。

  語音識別中的自適應技術有很多,根據自適應的空間,可以分成兩類:特征空間自適應和模型空間自適應。對于特征空間自適應來說,它試圖將相關的特征通過特征轉換成無關的特征,從而能夠和無關的模型相匹配。而對于模型空間的自適應來說,它試圖將無關的模型轉換成相關的模型,從而能夠和相關的特征相匹配。總而言之,這兩類算法目的是為了讓相關的特征與無關的模型相匹配。

  2. INTERPSEECH 2017 paper reading

  2.1 Paper 1

  第一篇文章的題目是Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition,它來自蒙特利爾大學。這篇文章的主要思想是將layer normalization的scale和shift兩個參數由上下文無關的變成上下文相關的,從而根據上下文信息來獲得動態的scale和shift。這是一種模型空間的自適應。它的主要創新的地方主要是,它不需要自適應階段(自適應階段就是使用目標 domain的數據進行自適應,從而能夠學習到目標domain的知識),另外,它同樣不需要提供包含說話人信息的相關特征,例如i-vector等等。

  DLN對應的公式如上圖右邊所示,首先,取前一層的minibatch ( TT )大小的隱層矢量或者輸入矢量hl−1thtl−1進行summarization,從而獲得alal。然后,通過線性變換矩陣和偏置來動態地控制scale ( αlgαgl )和shift ( βlgβgl )。

  同時,在原來的CE訓練的基礎上,在目標函數上增加一個懲罰項(上圖的右下角LvarLvar),用于增加句子內的variance,從而summarization出來的信息會更加具有區分性。

  這篇paper主要是在81小時的WSJ以及212小時的TED數據集上進行實驗,WSJ的訓練集包含283個說話人,TED的訓練集包含5076個說話人。

  首先,在WSJ數據集上對比LN和DLN之間的性能,性能主要包括開發集和測試集的FER和WER(FER表示幀錯誤率,WER表示詞錯誤率)。可以看出,除了測試集WER外,DLN均優于LN。文章分析,這是由于WSJ的說話人數目較少,導致句子間的差異性不明顯,同時WSJ數據集是在安靜環境下錄制的,句子都比較平穩,DLN不能夠起作用。

  在TED數據集上的結果如第二個表格所示,發現在四個性能參數下,DLN均優于LN。文章對比WSJ和TED數據,TED數據集能夠取得比較好的性能的原因是,TED數據集較WSJ speaker數目更多,句子數更多,variability更加明顯。通過這篇文章,我們可以發現這種動態的LN與句子的variability相關。并且總體上看來,DLN是要優于LN。

  2.2 Paper 2

  第二篇文章的題目是Large-Scale Domain Adaptation via Teacher-Student Learning,它來自微軟。這篇文章的主要思想是通過teacher/student的結構來進行domain adaptation。這種方法不需要目標 domain的帶標注的數據。但是,它需要和訓練集相同的并行數據。它的創新點和價值主要在于,這種方法可以使用非常多的無標注數據,同時借用teacher network的輸出來進一步提升student模型的性能。

  將teacher/student 簡稱為T/S。T/S的訓練流圖如上圖右邊所示。Figure 1 中的左側為teacher network,右側為student network,它們的輸出后驗概率分別設為PTPT和PSPS。

  student network的訓練過程:首先,將teacher network復制一份作為student network的初始化。然后,利用student domain data和teacher domain data通過對應的網絡獲得相應的后驗概率PTPT和PSPS。最后,利用這兩個后驗概率計算error signal,進行back梯度反傳更新student network。

  本paper的實驗是在375小時的英文cortana數據上進行的。測試集根據不同的domain,有不同的測試集。

  針對干凈/帶噪,在Cortana測試集上進行實驗。首先,使用teacher network進行測試,發現在帶噪語音上測試性能(18.8%)要遠差于noise-free的語音(15.62%)。如果通過仿真的方式來訓練teacher network,發現noisy的測試性能(17.34%)有一定的提升,這個等價于在student network上使用hard label來訓練。第四行和第五行使用T/S 算法,在同樣數據量上,soft label (16.66%)要優于hard label (17.34%)。如果將訓練student network的數據增加到3400小時,性能會有進一步的提升(16.11%)。

  對于成年人/小孩來說,實驗首先將375小時中的女性以及兒童數據去除,獲得adult male 模型。實驗發現,小孩的識別性能很差,分別是39.05和34.16。與干凈/帶噪相同,在使用T/S算法后,能夠在性能上獲得進一步的提升,并且數據擴大對于性能是有優勢的。

  2.3 Paper 3

  第三篇文章是來自香港科技大學和谷歌的文章。這篇文章主要的想法和創新點是將Factorized Hidden Layer (FHL)的自適應方法 應用于LSTM-RNN。

  對于FHL adaptation算法來說,它在說話人無關的網絡權重WW基礎上加上一個說話人相關的網絡權重,從而獲得說話人相關的網絡權重WsWs。根據公式(7),我們可以看到,這個SD transformation是根據一組矩陣基(B(1),B(2),...,B(i))(B(1),B(2),...,B(i))通過線性插值得到。同樣,對神經網絡的偏置bb也可以進行相應的說話人相關變換。

  但是,在實際實驗中,由于矩陣基會帶來大量的參數引入,這些矩陣基都被限制為rank-1,因此公式(7)可以進行一些變換,如上圖右邊所示。由于矩陣基為rank-1,那它可以被表示成一個列向量γ(i)γ(i)和一個行向量ψ(i)Tψ(i)T相乘的形式。同時,插值矢量被表示成對角矩陣DsDs的形式。這樣便獲得三個矩陣ΓΓ、DsDs和ΨTΨT連乘的方式,方便模型訓練。

  本文還介紹了speaker-dependent scaling。它將LSTM記憶單元中的激活值進行speaker-dependent scale。通過公式帶入,發現,只要對每一個說話人學習zszs即可以進行說話人相關的scaling。但是這種算法存在一個問題,zszs的維度與網絡的層寬相關,參數量大。因此,一種subspace scaling的方法被提出,它通過一個固定維度的low-dimensional vector vsvs來控制zszs,vsvs的維度遠小于zszs,從而大大地減少了說話人相關的參數量。

免責聲明:本文來源于網絡,本文僅代表作者個人觀點,本站不作任何保證和承諾,若有任何疑問,請與本文作者聯系或有侵權行為聯系本站刪除。(原創稿件未經許可,不可轉載,轉載請注明來源)
掃一掃關注數字音視工程網公眾號

相關閱讀related

評論comment

 
驗證碼:
您還能輸入500
    主站蜘蛛池模板: 永磁变频空压机-无油空压机-螺杆式空压机热能回收-空压机配套-空压机合同能源管理-维修保养-北京斯特兰压缩机有限公司 | 疝灯试验箱-有风源淋雨-汽车盐雾室-无锡苏南试验设备有限公司 | 上海前 傲信息技术有限公司-企业信息化建设及品牌推广服务商 | 无线对讲机系统-中继台-山区隧道信号覆盖-贝亚特 | 专题秀_汇聚网络热门专题_实时报道各类新闻专题资讯 | 山东土工膜_复合土工膜_防水板生产厂家-山东德旭达土工材料有限公司 | 天之水网_新时代主流门户网站 十大文明网,主流新媒 、 值得信赖、关注我、温暖你! | 智能化会议系统|多媒体会议系统|无纸化会议系统|会议音箱|高清视频会议终端|智能化会议室|会议系统|视频会议系统-深圳市航视达科技有限公司 | 消防水电施工,消防水电安装,消防水电施工公司,消防水电改造-亿杰北京消防工程公司 | 运动控制器_数控系统_廊坊市九盈数控技术公司「官网」 | 山东邹平华强无纺布有限公司| 实验室冷水机-冷却循环水系统-深圳市达沃西制冷设备厂 | 兰州职业学校-新华互联网学校咨询平台中心 | 上海上市答谢酒会_企业年会_新品上市发布会_周年/开业庆典_会议会务_活动策划布置演出公司 | 苏州洁仪净化科技有限公司| 重庆电磁流量计_水表厂家_液位计_重庆青天特克科技有限公司 | 智慧网格,智慧城市,智慧社区,精准扶贫,农村电商,网格化,网格化管理,智慧养老,北京瑞光极远数码科技有限公司 | 重庆惠程信息科技股份有限公司 | 声测管厂家_声测管现货_桥梁桩基声测管_注浆管_沉降板-沧州市福顺昌钢管有限公司 | 土壤养分测定仪-土壤养分速测仪-生产厂家-托普云农土壤仪器站 | 徐州恒铭机械设备有限公司_装载机配件_压路机配件_起重机配件_挖掘机配件_配件_徐州恒铭机械设备有限公司 | 扭力扳手_扭力扳手检定仪_数显扭力扳手_扭力测试仪_测力计_推拉力计_拉力测试仪_测试台架-上海实干实业有限公司 | 洁净室、手术室、实验室、无尘车间厂房的净化工程装修设计施工公司-福临建设 | 混凝土砂石分离机_龙门洗车机_振动型砂石分离机 - 青州同辉环保机械 | 呕吐毒素快速检测仪-黄曲霉毒素测定仪-玉米赤霉烯酮快速检测卡-南京微测生物科技有限公司 | 商用厨具|商用厨房设备|商用电磁灶-鲁宝厨业官方网站 | 洗车机-自动汽车洗车机-全自动洗车设备-全自动电脑洗车机-北京自然绿环境科技发展有限公司 | 上海惠涵实业有限公司-德国进口风机,德国Elektror依莱克罗风机 上海画册设计-上海宣传册设计-产品手册设计-企业画册设计公司 | 山东向阳电子科技有限公司-多用户集中式电能表生产厂家,NB物联网水表,刷卡水电表生产厂家,泰安智能水电表价格 | 化妆粉扑厂家【秀兰】一线品牌资格供应商_海绵粉扑批发_气垫粉扑价格_广州秀兰生物科技有限公司 化工招聘网 化工人才网|化工英才网-化工企业招聘首选网站 | 液压提升设备,液压顶升装置,钢内筒提升设备,储罐液压顶升_沧州鼎恒液压机械制造有限公司 | 河北新鑫矿冶设备有限公司-河北新鑫矿冶设备有限公司 | 涂塑复合钢管,大口径涂塑钢管,内外涂塑钢管厂家-沧州友诚管业有限公司 | 上海互动多媒体公司_上海触摸屏软件开发_上海互动投影开发_上海VR虚拟现实制作_上海全息投影制作_上海互动轨道屏制作—盟邑数字 上海浩斌信息科技有限公司RFID读写器,IC卡读卡器,手持机,数据采集终端,电力仓库管理软件开发,固定资产软件,纱管标签,试剂管理,RFID试剂柜,档案管理,档案柜,智能货架 | 易交换在线易货电商平台-互联网易物贸易,以物换物-无锡据风网络科技有限公司 | 天津代办营业执照_注册公司_代理记账_代办注销_地址变更-谷骐科技 | 绍兴上虞大成网络有限公司——因为专注,所以专业 | 桶装水配送-瓶装水-净水器-厦门水之露商贸有限公司,电话:18205922444 | 树脂门|卫浴门|医院门|医院专用门|卫生间门—湖南航天康达树脂门 | 济南塑料袋,食品包装袋,复合塑料袋,方便袋-济南精美塑料包装厂 | 树脂井盖,复合井盖,井盖厂家-山东宝盖新材料 |