學位論文之基於視覺信息的語音識別技術研究(pdf 70頁)
學位論文之基於視覺信息的語音識別技術研究(pdf 70頁)內容簡介
學位論文之基於視覺信息的語音識別技術研究內容提要:
在人機交互領域中,傳統的單語音識別技術在相對安靜的環境下能夠對連續的單詞及詞組達到較高的識別率。然而,將其應用到有背景噪聲或多人交互的真實環境時,其識別能力受到了極大的限製。現實語音交流中,說話人的視覺信息可以明顯提升接受者的感知能力。因此,本文主要研究了計算機視覺技術在自動語音識別中的應用。
本文首先介紹了基於視覺的視聽語音識別(AVSR)係統的整體框架,並對傳統的單視覺、單音頻的特征提取和識別方法進行了分析比較。認為人臉嘴部視覺特征的檢測提取與視、音特征融合是提高係統整體語音識別能力的關鍵,亦是本文主要的研究工作。
為了滿足視覺特征的實時檢測,我們首先引入了旋轉哈爾特征在積分圖像中的應用,在基於Adaboost推進學習算法上通過使用單值分類作為基礎特征分類器,以級聯的方式合並強分類器,劃分檢測區域並用於嘴部定位,最後通過卡爾曼濾波跟蹤、主成分分析、線性判別、音節分析,拋棄了大量對後期特征融合識別無用的特征量,快速有效的提取了人臉嘴部特征。音頻語音特征的提取我們采用了較成熟的Mel倒譜係數方法。對所獲取的單視、音特征采用隱馬爾可夫模型作為訓練識別算法。耦合隱馬爾可夫模型的實現可以在時間上對視、音頻流狀態的異步過程建模,並且保留了視、音特征的獨立性,實現了視、音
特征流在決策級上的融合識別。
..............................
在人機交互領域中,傳統的單語音識別技術在相對安靜的環境下能夠對連續的單詞及詞組達到較高的識別率。然而,將其應用到有背景噪聲或多人交互的真實環境時,其識別能力受到了極大的限製。現實語音交流中,說話人的視覺信息可以明顯提升接受者的感知能力。因此,本文主要研究了計算機視覺技術在自動語音識別中的應用。
本文首先介紹了基於視覺的視聽語音識別(AVSR)係統的整體框架,並對傳統的單視覺、單音頻的特征提取和識別方法進行了分析比較。認為人臉嘴部視覺特征的檢測提取與視、音特征融合是提高係統整體語音識別能力的關鍵,亦是本文主要的研究工作。
為了滿足視覺特征的實時檢測,我們首先引入了旋轉哈爾特征在積分圖像中的應用,在基於Adaboost推進學習算法上通過使用單值分類作為基礎特征分類器,以級聯的方式合並強分類器,劃分檢測區域並用於嘴部定位,最後通過卡爾曼濾波跟蹤、主成分分析、線性判別、音節分析,拋棄了大量對後期特征融合識別無用的特征量,快速有效的提取了人臉嘴部特征。音頻語音特征的提取我們采用了較成熟的Mel倒譜係數方法。對所獲取的單視、音特征采用隱馬爾可夫模型作為訓練識別算法。耦合隱馬爾可夫模型的實現可以在時間上對視、音頻流狀態的異步過程建模,並且保留了視、音特征的獨立性,實現了視、音
特征流在決策級上的融合識別。
..............................
用戶登陸
信息技術熱門資料
信息技術相關下載