鯨品堂|AI語音模型在家寬業務中的應用

2024-10-22 1107

在運營商家寬業務支撐場景中,存在多個APP和係統需要(yào)與裝維人員交互,傳統的(de)功能按鈕點擊型操作交互(hù)界(jiè)麵,越來越(yuè)難(nán)以滿足裝維人員工作(zuò)提效的迫切需求。家寬施工(gōng)調度係統所需的AI語音能力主要包括ASR(音轉(zhuǎn)字)和TTS(字轉音)。主要有以下幾點訴求:高效的語音轉錄、語音角色分離、生動的語(yǔ)音合成。


針對工業(yè)語音應用的單一化,AI語音模型還應該可(kě)以通過微調的方式定(dìng)製屬於(yú)自己的語言類別,比如各個地市的方言。


01


技術選型


目前市麵(miàn)上開源的語言模(mó)型有很多,比較著名的有OpenAI提供的Whisper模型,Facebook AI 提出的wav2vec 2.0模型,FunAudioLLM的SenseVoice語音(yīn)識別模型和CosyVoice語音合成模型,還有(yǒu)阿裏達摩院開源的大型端到端語音識別框架FunASR。基(jī)於業務的技術能力需求,結(jié)合市麵上的多個(gè)語言模型各自(zì)的特點,在保證語音識別質量的前提(tí)下,推理速度更快的FunASR更為適合(hé)。


FunASR語音識別框架提供多種功能,包括語音(yīn)識別(ASR)、語音端點檢(jiǎn)測(cè)(VAD)、標點恢複、說話(huà)人分離(lí)和多人對話語音識別等。TTS模型選(xuǎn)擇有著出色音色複製功能的(de)CosyVoice模型(xíng),實測(cè)發現在使用預訓練模型推理時,CosyVoice有著良好的性能表現。

02


原理介紹



FunASR技術(shù)原(yuán)理介紹


獨特亮點:強大功能與易用性的(de)完(wán)美結合


1.工業級模型: 基於超(chāo)過60,000小時(shí)的中文(wén)數據和50,000小時的英文(wén)數據進行訓練,確(què)保提供卓越的識別精度(dù)。

2.實時與非(fēi)實時解決方案:支持非實時的精(jīng)準(zhǔn)識別與實(shí)時應用場景的快速響應,滿足多樣(yàng)化需求。

3.模塊化架構設計:用戶可(kě)以(yǐ)根據具體(tǐ)需(xū)求靈活選擇和定製(zhì)模塊,如集成VAD、PUNC模型,從而提升應用的整體功能。


原理淺析:高效算法與靈(líng)活擴(kuò)展性的無縫融合(hé)


工具(jù)包的核心模型(xíng)是Paraformer,這是(shì)一(yī)種高(gāo)效的非自回歸端(duān)到端語音識別模型(xíng),模型結構如(rú)下圖所示。


圖片關鍵詞

來源於(yú)Modelscope Paraformer



CosyVoice技術原理介紹


傳統到(dào)革新:語音合成技術的演變


傳統的TTS技術(shù)依賴(lài)於大量(liàng)錄(lù)音數據和複雜的特征工程,而CosyVoice另辟蹊徑,它是基於大(dà)型語言模型(LLM)和監督語義令牌來(lái)生成語音,這些令牌與傳統的(de)無監督(dū)學習得到的令(lìng)牌不同,它們能夠更準確地捕捉到語義(yì)信息,並(bìng)與文(wén)本對齊。模型結構圖如下:


圖片關鍵詞

來源於Modelscope CosyVoice


核心亮點(diǎn):開啟零(líng)樣本(běn)語音合成的全新時代


1.CosyVoice-300M:基座模型(xíng),僅僅需要3至10秒的原始音頻就可以生(shēng)成音色克隆,甚至涵蓋韻律、情感等(děng)細(xì)微(wēi)的(de)方麵,包括跨語種語音的生成。

2.CosyVoice-300M-SFT:微調版(bǎn)本(běn),經過專門的數據集微調以提高特(tè)定任務或領(lǐng)域(yù)的語音生成質(zhì)量。

3.CosyVoice-300M-Instruct:支持細粒度控製,包括對說話人身份、說話(huà)風格(情緒、性別、語(yǔ)速和(hé)音高)以及精細的副語言特征,這些特征包括插入笑聲、呼吸、以及強調某(mǒu)些詞語的能力。

03


應用實戰



語(yǔ)音模型應用場景


語音識別(ASR)和語音合成(TTS)技術廣泛應用在運營商裝(zhuāng)維方向,使得人機交互更加便捷,提升了工作(zuò)效率,改善客戶服(fú)務。


圖(tú)片關鍵詞

智能綜調語音技術應用場景


1.語音(yīn)客服係統: 通過ASR實時將用戶(hù)的語音問題轉化為文字,結合自然語言處理(NLP)技術進行問題分類(lèi),TTS則用於將係統的應(yīng)答結果轉化(huà)為語音(yīn)反饋(kuì)給用戶。語音客服係統能夠自動處理常見問題(tí),減少人工(gōng)客服的負(fù)擔。

2.故(gù)障診斷: 裝維人員可以通(tōng)過語音描(miáo)述故障現象(xiàng),ASR自動轉錄為文字並錄入係統;係統可(kě)以利用文本分析和曆史故障數(shù)據進行初步診斷,給出故(gù)障排查建議。

3.工單語音錄入:裝(zhuāng)維人(rén)員可以通過(guò)語音(yīn)快速錄入工單信息(xī),ASR將其轉化(huà)為結構化的文字內容,錄入工單管理係統。可以包括(kuò)設備狀態(tài)、故障現(xiàn)象、修複措(cuò)施(shī)等內容(róng)。

4.智能綜調助手:用(yòng)戶除了輸入文(wén)字給助(zhù)手(shǒu),可以直接語音錄入,ASR模型將語音轉為文字後轉入(rù)下一個流程進行意圖(tú)識別。

5.智能質檢(jiǎn):人工客服處理改約(yuē)審核時快速的從錄音轉文字中獲取人員對話信息。



應用思路


在實際使用(yòng)中,為了提高Paraformer模型(xíng)的預測性能,會在標準的Paraformer基礎上增加了語音活動檢測和時間戳預測模型。語(yǔ)音活動檢測采用基(jī)於前饋時序記憶網絡FSMN-VAD模型,它能夠檢測有效語音的(de)起始和結束。為了提(tí)升ASR模型(xíng)轉錄後文本的可讀性,會(huì)對文本進(jìn)行後處理,包括添加標點符號(hào)和去除語音(yīn)不流暢性,采用的是FunASR提供的(de)CT-Transformer模型,它能夠在保證(zhèng)性(xìng)能的(de)同時利用快速解碼策略來最小化延遲。


最終完整(zhěng)的FunASR語音識別(bié)模型處理流程如下圖所示:

圖片關鍵詞


在業務受理流程中,采用大小模型結合,多模態(tài)受理的方法。比較典型的(de)是在智能(néng)綜調助手應用中,語音識別技術作為強有(yǒu)力的輔助工具,提高了產品的人機交互能力和業務的整體運作效率。語音模型將客戶語(yǔ)音需求轉為文(wén)字,然後經過大小模型進行意圖判斷,匹配到適合場景的(de)意圖(tú)後進入到鏈式引擎調用指定的API接口(kǒu),從而完成AI大模型在業務受理的智能化全過程。


圖片關(guān)鍵詞

大模型結合語音技術業(yè)務全流程


FunASR角色分離模型(xíng)可用於智能質檢板塊。傳統方式下人工客服在處理改約審核時,需(xū)要查看(kàn)改約的圖片以及錄音,當錄音較長時往往需要花費很多時(shí)間,FunASR角色分離模型不僅(jǐn)可以識別語音,還可以將多人對(duì)話區分,這樣客服在審核時可以很快的(de)了(le)解到錄音的內容,並(bìng)準確定位到說話(huà)人。

圖片(piàn)關鍵(jiàn)詞圖片關鍵詞

使用FunASR對錄音文件進行角色分離的示例過程


進階動作:訓練與(yǔ)微調(diào)


模型訓練:個(gè)性化定製自己的語音模型


為了(le)提升語(yǔ)音模型對地方方言的識別效果,需(xū)要對模型進行微調訓練。FunASR官方(fāng)提供簡便的模型訓練腳本,我們需要提前準備數據集並將數據集轉換為特定的格式以滿(mǎn)足模型輸入(rù)。FunASR模型訓練數據集的jsonl的格式如下圖所示:


圖片關鍵詞


因為(wéi)語音數據很(hěn)多都長短不一,為了充(chōng)分利用計(jì)算資(zī)源又防止出現OOM,每一批樣本大小的選擇(zé)根據實際情況指定單張GPU上可(kě)以處理的最大(dà)幀數即token值,訓練批次根(gēn)據數據集情況而定,其它的(de)訓(xùn)練參數保持默認即可,可以通(tōng)過(guò)tensorboard可視化查看訓練過程,如(rú)圖所示:


圖片關鍵詞

FunASR個性化語音(yīn)訓練過程


訓練前後(hòu)效果對比(bǐ):

圖片關鍵詞


可(kě)以看出模型訓練後對一些名詞的識別準確了很多,比如微調前“移動(dòng)”被識別為“一中”,“五金院裏”識別為“五金專件”,“打電(diàn)話”識別為“大廳”,“路金灣”識別為“如今園”等(děng)。


04


AI語音模型(xíng)的挑戰


1.多語言多(duō)方言(yán)識別(bié):在利用語音模型進行多方言訓練時(shí),音頻數據大多來源於裝維人員與客戶的通話錄音,文本標(biāo)注都是線下人員手動錄入,往往麵臨訓(xùn)練數(shù)據(jù)稀(xī)缺和數據采集(jí)錯誤的問題(tí),這直接影響了(le)模型的訓練效果,導致模型(xíng)在處理方言時(shí)準確性較低。後續對於數據集的收集(jí),嚐(cháng)試(shì)通(tōng)過在互聯(lián)網上對一些公開的地方方言視頻進行語音(yīn)文字的抓取,然後通過後期整理,優化數據。


2.背景噪音與環境因素:在(zài)嘈雜的環境中,語(yǔ)音識(shí)別的準確(què)率通常會下降,背景噪音(yīn)、回聲、多人同時說話等因素都會幹擾模型的判斷,導(dǎo)致錯誤(wù)識別,可以嚐(cháng)試采用一些傳(chuán)統的降噪技術(shù)比如利用python中的(de)scipy 庫(kù),讓語音通過低通濾波器進行簡單的降噪,然後再進行語音識別處理。


3.實時處理與低延遲需求:在實際業務需求中,為了不影響用戶體驗,需要語音模型有較高的推理速度,這對模型的計算效率和資源優化提出了較高的(de)要(yào)求。除了硬件方麵的提升,還可以在模型初步加載語音(yīn)時,采用(yòng)異步(bù)的方式(shì)對語音文件進行切片,然後再(zài)送入(rù)模型推理,使其在多並發情況下也能保持良好的推理速度。


4.情感與語義理解:僅僅識別(bié)語音中的文字內容(róng)並不足夠(gòu),很多(duō)場景還需要語音模型能夠理解說話者的情感和語義。例如,客服場(chǎng)景中(zhōng),係統需要感(gǎn)知用戶是否處於焦慮、憤怒等情緒,以作(zuò)出(chū)合適的回應。


未來(lái),隨著(zhe)數據規模的增長與計算資源的增強,AI語音模型有望(wàng)繼(jì)續突破瓶頸(jǐng),帶來更加自(zì)然和高效的語音交互體驗。期待在這一領域中,更多創新的出現,助力各行(háng)各業邁向智能化的新時(shí)代。


官方微信公(gōng)眾(zhòng)號

国产亚洲熟妇在线视频雲(yún)計算科技股份有限公司 版權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號

国产亚洲熟妇在线视频-亚洲熟妇AV乱码在线观看-亚州国产AV一区二区三区伊在-中文字幕无码人妻少妇免费视频-欧美 日韩 人妻 高清 中文-熟妇人妻中文字幕无码老熟妇-丰满熟女人妻一区二区三-亚洲精品字幕