貴州elt端到端流程

來源: 發(fā)布時間:2022-06-23

    本申請涉及語音識別技術(shù)領(lǐng)域:,尤其涉及一種基于卷積神經(jīng)網(wǎng)絡(luò)和注意力機制的端到端語音識別方法、系統(tǒng)、裝置及其存儲介質(zhì)。背景技術(shù)::語音識別是近年來十分活躍的一個研究領(lǐng)域,是一種重要的人機交互手段。語音識別系統(tǒng)的典型實現(xiàn)方案為:輸入的模擬語音信號首先要進行預(yù)處理,包括預(yù)濾波、采樣和量化、加窗、端點檢測、預(yù)加重等。語音信號經(jīng)預(yù)處理后,接下來很重要的一環(huán)就是特征參數(shù)提取。然后通過機器學習以及深度學習的算法對特征加以學習,比如hmm或者lstm等等。上述工作推動了語音識別的研究,但是,也存在一些值得深入研究的問題,具體如下:(1)帶口音(dialect)語音的識別;(2)從原始語音到語音特征的提取過程必然導致信息的損失,而損失的信息對終的語音識別效果是否有影響也是未知的;(3)背景噪音對于識別效果的影響。如何克服上述的問題,是當前需要解決的。技術(shù)實現(xiàn)要素:為了解決上述技術(shù)問題,本申請實施例提供一種基于卷積神經(jīng)網(wǎng)絡(luò)和注意力機制的端到端語音識別方法、系統(tǒng)、裝置及其存儲介質(zhì)。本申請實施例方面提供了一種基于卷積神經(jīng)網(wǎng)絡(luò)和注意力機制的端到端語音識別方法,可包括:采集語音數(shù)據(jù)。業(yè)務(wù)流程的優(yōu)化管理是端到端的重中之重,業(yè)務(wù)流程的自動化對于企業(yè)實現(xiàn)端到端管理有著重要作用。貴州elt端到端流程

    霍尼韋爾安全與生產(chǎn)力解決方案集團大中華區(qū)副總裁兼?zhèn)鞲信c生產(chǎn)力解決方案部總經(jīng)理柴小舟先生表示:“為了應(yīng)對日新月異的市場環(huán)境,霍尼韋爾傳感與生產(chǎn)力解決方案部積極轉(zhuǎn)變其定位及發(fā)展戰(zhàn)略,力求為客戶帶來從硬件到軟件的智慧供應(yīng)鏈解決方案。中國企業(yè)對于自動化、智能化的關(guān)注度正在提升,我們的端到端智慧供應(yīng)鏈解決方案可以滿足中國市場需求的快速變化、降低企業(yè)成本并提升企業(yè)生產(chǎn)力。未來,我們還將繼續(xù)在軟件及硬件領(lǐng)域發(fā)力,助力更多企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型。”霍尼韋爾此次展出的內(nèi)容由新品展示區(qū)、自動化物料搬運解決方案、揀選和播種系統(tǒng)、智慧物流、智慧倉儲及語音解決方案組成,還設(shè)立了智慧供應(yīng)鏈VR體驗區(qū)供現(xiàn)場觀眾互動。重點展出內(nèi)容包括:硬件解決方案:手持終端:為移動工作者提高工作效率的各類手持終端產(chǎn)品,包括新一代企業(yè)級移動數(shù)據(jù)終端霍尼韋爾EDA51,面向倉儲作業(yè)環(huán)境的EDA60K,基于MobilityEdge平臺的Dolphin?CT40&CT60移動數(shù)據(jù)終端,以及面向苛刻應(yīng)用場景的霍尼韋爾Dolphin?CN80移動數(shù)據(jù)終端。掃描設(shè)備:推出的工業(yè)級DPM讀碼器HF800對降低錄入數(shù)據(jù)的錯誤、節(jié)省管理時間和成本都頗有成效;此外,Granit?1D可升級工業(yè)級影像式條碼掃描器。滄州供應(yīng)鏈端到端軟件端到端流程是從客戶需求端出發(fā),到滿足客戶需求端去,提供端到端服務(wù),端到端的輸入端和輸出端都是市場。

    rtt接收單元的報文類型包括rtt發(fā)送單元里的發(fā)送端的senderid、rtt發(fā)送單元報文發(fā)送時的本地時間戳sendtimstamp、媒體數(shù)據(jù)接收端的recverid和接收端自收到rtt發(fā)送單元報文數(shù)據(jù)到發(fā)送rtt接收單元報文數(shù)據(jù)滯留的時長delay。作為,在步驟(4)中,具體操作方法如下:(41)接收端將接收到的rtt發(fā)送單元報文信息以及自己的id作為recverid打包進rtt接收單元報文,并附帶在自己的媒體數(shù)據(jù)包內(nèi),即刻發(fā)送;(42)在該媒體數(shù)據(jù)包傳輸?shù)剿薪邮斩说穆酚缮?,所?jīng)過的媒體節(jié)點收包后不緩存,即刻下發(fā);(43)rtt發(fā)送單元的發(fā)送端接收到媒體數(shù)據(jù)包后,檢測rtt接收單元報文并解析,根據(jù)初始發(fā)送的本地時間戳sendtimestamp,與當前接收時刻的本地時間戳,相減得出往返rtt值。作為,在步驟(41)中,為防止傳輸丟包,將rtt接收單元報文信息附帶在連續(xù)的多個媒體數(shù)據(jù)包里。作為,在步驟(43)中,由于視頻會議系統(tǒng)是多對多的系統(tǒng),該rtt接收單元報文可能包含對應(yīng)多個發(fā)送端的rtt接收單元報文信息,接收到rtt接收單元報文的發(fā)送端需要通過rtt接收單元報文的senderid字段找出和自己匹配的senderid,根據(jù)初始發(fā)送的本地時間戳sendtimestamp,與當前接收時刻的本地時間戳,相減得出往返rtt值。作為,在步驟。

    這個復合報文應(yīng)該表述成:recverid,senderid-1,sendertimestamp-1,delay-1;senderid-2,sendertimestamp-2,delay-2…具體操作方法如下:(51)接收端將rtt接收單元的報文單獨作為一個數(shù)據(jù)包周期發(fā)送,rtt接收單元報文信息里記錄從收到rtt發(fā)送單元報文到發(fā)送rtt接收單元報文滯留的時長;如果接收端收到的是多個發(fā)送端的rtt發(fā)送單元報文信息,一個senderid對應(yīng)一個發(fā)送端,有多個發(fā)送端,就有多個滯留時長delay,記錄多組rtt接收單元報文信息并打包發(fā)出;為防止傳輸丟包,每個周期里rtt接收單元報文的數(shù)據(jù)包需要連續(xù)多個重復發(fā)送。(52)在該數(shù)據(jù)包發(fā)送的路由上,途徑的媒體節(jié)點需要解析rtt接收單元報文,根據(jù)rtt接收單元報文里記錄的senderid信息做包拆解,把拆解重組后的包按照senderid的媒體數(shù)據(jù)包來的路由逆向發(fā)送到上一個媒體節(jié)點直到發(fā)送端本身;如果該rtt接收單元報文包含多個senderid,每經(jīng)過一個媒體節(jié)點,該媒體節(jié)點對應(yīng)的媒體服務(wù)要檢測和拆解重組這個數(shù)據(jù)包,拆解重組成包含單個senderid的rtt接收單元報文,按照senderid來選擇路徑發(fā)送回歸屬于它的發(fā)送端,拆解重組是每個媒體節(jié)點都要做的操作,直到后在senderid對應(yīng)的發(fā)送端收到rtt接收單元報文。端到端原則的比較好實踐就是可擴展性,適應(yīng)變化,它制造了互聯(lián)網(wǎng)的繁榮。

    加窗就是為了解決這個問題,使分幀后的信號變得連續(xù),每一幀就會表現(xiàn)出周期函數(shù)的特征。在語音信號處理中一般加漢明窗。作為一個具體的實施例,對切分的語音加窗分幀處理;分幀處理中幀長i為1024,幀間重疊率p為25%,獲大幀數(shù)h為447。增加的窗函數(shù)為hamming窗w(n,α),其的計算公式如下,w(n,α)=(1-α)-αcos(2πn/(n-1)),0≤n≤n-1。其中,α取值,n為n的取值范圍,表示hamming窗的長度。對語音進行快速傅里葉變換得到其頻譜,由于其頻譜為對稱式,所以只取其一半長度??焖俑道锶~變換的公式為:由于本步驟屬于語音識別中的常用技術(shù)手段,就不進行贅述。103:引入注意力機制,將注意力機制與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,構(gòu)建完整的語音識別網(wǎng)絡(luò)模型。可以理解的是,本申請中通過將注意力機制引入卷積神經(jīng)網(wǎng)絡(luò)中,注意力機制通過兩個全連接層a和b相乘實現(xiàn),其中全連接層b作為注意力權(quán)重,其權(quán)重是a的權(quán)重經(jīng)過softmax后得到的符合概率分布取值區(qū)間的注意力分配概率分布數(shù)值。在語音識別網(wǎng)絡(luò)模型的構(gòu)建過程中,本申請中采用cnn+ctc模型,采用vgg16基本模型架構(gòu),10層卷積層,5層池化層,5層全連接層,其中三層全連接層用于實現(xiàn)注意力機制,損失函數(shù)采用ctc損失函數(shù)?;ヂ?lián)網(wǎng)之所以發(fā)展迅速,得益于端到端原則:保持一個極簡的,將復雜留在端。江西供應(yīng)鏈端到端測試

端到端流程由垂直端到端流程和水平端到端流程組成。貴州elt端到端流程

    5層池化層,5層全連接層,其中三層全連接層用于實現(xiàn)注意力機制,損失函數(shù)采用ctc損失函數(shù),網(wǎng)絡(luò)優(yōu)化器采用adam優(yōu)化器。第三方面,本申請實施例提供了一種識別裝置,包括存儲器和處理器,所述存儲器上存儲有計算機可執(zhí)行指令,所述處理器運行所述存儲器上的計算機可執(zhí)行指令時實現(xiàn)方面的方法。第四方面,本申請實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時,實現(xiàn)上述方面的方法。在本申請實施例中,本發(fā)明的基于卷積神經(jīng)網(wǎng)絡(luò)和注意力機制的端到端語音識別系統(tǒng),通過將注意力機制融合卷積神經(jīng)網(wǎng)絡(luò)中,并通過使用ctc損失函數(shù)構(gòu)建完整的語音識別網(wǎng)絡(luò)模型,實現(xiàn)深度學習,從原始語音數(shù)據(jù)中提取語音的語譜圖作為cnn的輸入,以提高語音的性能,減少了人工提取特征帶來的信息損失,具有良好的應(yīng)用前景。附圖說明為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。貴州elt端到端流程

首匯信息技術(shù)河北有限公司總部位于新石北路368號金石創(chuàng)新大廈105室,是一家計算機硬件技術(shù)研發(fā)、技術(shù)咨詢、技術(shù)服務(wù);計算機系統(tǒng)集成服務(wù);貨物或技術(shù)進出口(國家限制和禁止的除外);互聯(lián)網(wǎng)信息服務(wù)(憑許可證經(jīng)營);設(shè)計、制作、代理國內(nèi)廣告業(yè)務(wù);發(fā)布國內(nèi)戶外廣告業(yè)務(wù);汽車配件、機械設(shè)備、五金產(chǎn)品、電子產(chǎn)品、化工產(chǎn)品(危險化學品及易制毒化學品除外、無存儲)、橡膠制品(醫(yī)用橡膠制品除外)、通信設(shè)備(衛(wèi)星電視廣播地面接收設(shè)施除外)、儀器儀表、安全技術(shù)防范設(shè)備、辦公設(shè)備的批發(fā)、零售。(依法需經(jīng)批準的項目,經(jīng)相關(guān)部門批準后方可開展經(jīng)營活動)的公司。首匯信息技術(shù)擁有一支經(jīng)驗豐富、技術(shù)創(chuàng)新的專業(yè)研發(fā)團隊,以高度的專注和執(zhí)著為客戶提供信息化中臺系統(tǒng)規(guī)劃,中臺ERP服務(wù)平臺。首匯信息技術(shù)致力于把技術(shù)上的創(chuàng)新展現(xiàn)成對用戶產(chǎn)品上的貼心,為用戶帶來良好體驗。首匯信息技術(shù)始終關(guān)注商務(wù)服務(wù)行業(yè)。滿足市場需求,提高產(chǎn)品價值,是我們前行的力量。