保留了較多信息,同時(shí)由于操作數(shù)比較隨機(jī),某種程度上又沒(méi)有抓住主要矛盾,干擾了主要語(yǔ)義信息的提取。pe文件即可移植文件導(dǎo)入節(jié)中的動(dòng)態(tài)鏈接庫(kù)(dll)和應(yīng)用程序接口(api)信息能大致反映軟件的功能和性質(zhì),通過(guò)一個(gè)可執(zhí)行程序引用的dll和api信息可以粗略的預(yù)測(cè)該程序的功能和行為。belaoued和mazouzi應(yīng)用統(tǒng)計(jì)khi2檢驗(yàn)分析了pe格式的惡意軟件和良性軟件的導(dǎo)入節(jié)中的dll和api信息,分析顯示惡意軟件和良性軟件使用的dll和api信息統(tǒng)計(jì)上有明顯的區(qū)別。后續(xù)的研究人員提出了挖掘dll和api信息的惡意軟件檢測(cè)方法,該類(lèi)方法提取的特征語(yǔ)義信息豐富,但*從二進(jìn)制可執(zhí)行文件的導(dǎo)入節(jié)提取特征,忽略了整個(gè)可執(zhí)行文件的大量信息。惡意軟件和被***二進(jìn)制可執(zhí)行文件格式信息上存在一些異常,這些異常是檢測(cè)惡意軟件的關(guān)鍵。研究人員提出了基于二進(jìn)制可執(zhí)行文件格式結(jié)構(gòu)信息的惡意軟件檢測(cè)方法,這類(lèi)方法從二進(jìn)制可執(zhí)行文件的pe文件頭、節(jié)頭部、資源節(jié)等提取特征,基于這些特征使用機(jī)器學(xué)習(xí)分類(lèi)算法處理,取得了較高的檢測(cè)準(zhǔn)確率。這類(lèi)方法通常不受變形或多態(tài)等混淆技術(shù)影響,提取特征只需要對(duì)pe文件進(jìn)行格式解析,無(wú)需遍歷整個(gè)可執(zhí)行文件,提取特征速度較快??煽啃栽u(píng)估連續(xù)運(yùn)行72小時(shí)出現(xiàn)2次非致命錯(cuò)誤。昆明第三方軟件評(píng)測(cè)單位
此外格式結(jié)構(gòu)信息具有明顯的語(yǔ)義信息,但基于格式結(jié)構(gòu)信息的檢測(cè)方法沒(méi)有提取決定軟件行為的代碼節(jié)和數(shù)據(jù)節(jié)信息作為特征。某一種類(lèi)型的特征都從不同的視角反映刻畫(huà)了可執(zhí)行文件的一些性質(zhì),字節(jié)碼n-grams、dll和api信息、格式結(jié)構(gòu)信息都部分捕捉到了惡意軟件和良性軟件間的可區(qū)分信息,但都存在著一定的局限性,不能充分、綜合、整體的表示可執(zhí)行文件的本質(zhì),使得檢測(cè)結(jié)果準(zhǔn)確率不高、可靠性低、泛化性和魯棒性不佳。此外,惡意軟件通常偽造出和良性軟件相似的特征,逃避反**軟件的檢測(cè)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例的目的在于提供一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測(cè)方法,以解決現(xiàn)有采用二進(jìn)制可執(zhí)行文件的單一特征類(lèi)型進(jìn)行惡意軟件檢測(cè)的檢測(cè)方法檢測(cè)準(zhǔn)確率不高、檢測(cè)可靠性低、泛化性和魯棒性不佳的問(wèn)題,以及其難以檢測(cè)出偽造良性軟件特征的惡意軟件的問(wèn)題。本發(fā)明實(shí)施例所采用的技術(shù)方案是,基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測(cè)方法,按照以下步驟進(jìn)行:步驟s1、提取軟件樣本的二進(jìn)制可執(zhí)行文件的dll和api信息、pe格式結(jié)構(gòu)信息以及字節(jié)碼n-grams的特征表示,生成軟件樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖。軟件登記測(cè)評(píng)隱私合規(guī)檢測(cè)確認(rèn)用戶數(shù)據(jù)加密符合GDPR標(biāo)準(zhǔn)要求。
綜合上面的分析可以看出,惡意軟件的格式信息和良性軟件是有很多差異性的,以可執(zhí)行文件的格式信息作為特征,是識(shí)別已知和未知惡意軟件的可行方法。對(duì)每個(gè)樣本進(jìn)行格式結(jié)構(gòu)解析,提取**每個(gè)樣本實(shí)施例件的格式結(jié)構(gòu)信息,可執(zhí)行文件的格式規(guī)范都由操作系統(tǒng)廠商給出,按照操作系統(tǒng)廠商給出的格式規(guī)范提取即可。pe文件的格式結(jié)構(gòu)有許多屬性,但大多數(shù)屬性無(wú)法區(qū)分惡意軟件和良性軟件,經(jīng)過(guò)深入分析pe文件的格式結(jié)構(gòu)屬性,提取了可能區(qū)分惡意軟件和良性軟件的136個(gè)格式結(jié)構(gòu)屬性,如表2所示。表2可能區(qū)分惡意軟件和良性軟件的pe格式結(jié)構(gòu)屬性特征描述數(shù)量(個(gè))引用dll的總數(shù)1引用api的總數(shù)1導(dǎo)出表中符號(hào)的總數(shù)1重定位節(jié)的項(xiàng)目總數(shù),連續(xù)的幾個(gè)字節(jié)可能是完成特定功能的一段代碼,或者是可執(zhí)行文件的結(jié)構(gòu)信息,也可能是某個(gè)惡意軟件中特有的字節(jié)碼序列。pe文件可表示為字節(jié)碼序列,惡意軟件可能存在一些共有的字節(jié)碼子序列模式,研究人員直覺(jué)上認(rèn)為一些字節(jié)碼子序列在惡意軟件可能以較高頻率出現(xiàn),且這些字節(jié)碼序列和良性軟件字節(jié)碼序列存在明顯差異??蓤?zhí)行文件通常是二進(jìn)制文件,需要把二進(jìn)制文件轉(zhuǎn)換為十六進(jìn)制的文本實(shí)施例件,就得到可執(zhí)行文件的十六進(jìn)制字節(jié)碼序列。
所述生成軟件樣本的dll和api信息特征視圖,是先統(tǒng)計(jì)所有類(lèi)別已知的軟件樣本的pe可執(zhí)行文件引用的dll和api信息,從中選取引用頻率**高的多個(gè)dll和api信息;然后判斷當(dāng)前的軟件樣本的導(dǎo)入節(jié)里是否存在選擇出的某個(gè)引用頻率**高的dll和api信息,如存在,則將當(dāng)前軟件樣本的該dll或api信息以1表示,否則將其以0表示,從而對(duì)當(dāng)前軟件樣本的所有dll和api信息進(jìn)行表示形成當(dāng)前軟件樣本的dll和api信息特征視圖。進(jìn)一步的,所述生成軟件樣本的格式信息特征視圖,是從當(dāng)前軟件樣本的pe格式結(jié)構(gòu)信息中選取可能區(qū)分惡意軟件和良性軟件的pe格式結(jié)構(gòu)特征,形成當(dāng)前軟件樣本的格式信息特征視圖。進(jìn)一步的,所述從當(dāng)前軟件樣本的pe格式結(jié)構(gòu)信息中選取可能區(qū)分惡意軟件和良性軟件的pe格式結(jié)構(gòu)特征,是從當(dāng)前軟件樣本的pe格式結(jié)構(gòu)信息中確定存在特定格式異常的pe格式結(jié)構(gòu)特征以及存在明顯的統(tǒng)計(jì)差異的格式結(jié)構(gòu)特征;所述特定格式異常包括:(1)代碼從**后一節(jié)開(kāi)始執(zhí)行,(2)節(jié)頭部可疑的屬性,(3)pe可選頭部有效尺寸的值不正確,(4)節(jié)之間的“間縫”,(5)可疑的代碼重定向,(6)可疑的代碼節(jié)名稱,(7)可疑的頭部***,(8)來(lái)自,(9)導(dǎo)入地址表被修改,(10)多個(gè)pe頭部,(11)可疑的重定位信息,。壓力測(cè)試表明系統(tǒng)在5000并發(fā)用戶時(shí)響應(yīng)延遲激增300%。
在不知道多長(zhǎng)的子序列能更好的表示可執(zhí)行文件的情況下,只能以固定窗口大小在字節(jié)碼序列中滑動(dòng),產(chǎn)生大量的短序列,由機(jī)器學(xué)習(xí)方法選擇可能區(qū)分惡意軟件和良性軟件的短序列作為特征,產(chǎn)生短序列的方法叫n-grams?!?80074ff13b2”的字節(jié)碼序列,如果以3-grams產(chǎn)生連續(xù)部分重疊的短序列,將得到“080074”、“0074ff”、“74ff13”、“ff13b2”四個(gè)短序列。每個(gè)短序列特征的權(quán)重表示有多種方法。**簡(jiǎn)單的方法是如果該短序列在具體樣本中出現(xiàn),就表示為1;如果沒(méi)有出現(xiàn),就表示為0,也可以用。本實(shí)施例采用3-grams方法提取特征,3-grams產(chǎn)生的短序列非常龐大,將產(chǎn)生224=(16,777,216)個(gè)特征,如此龐大的特征集在計(jì)算機(jī)內(nèi)存中存儲(chǔ)和算法效率上都是問(wèn)題。如果短序列特征的tf較小,對(duì)機(jī)器學(xué)習(xí)可能沒(méi)有意義,選取了tf**高的5000個(gè)短序列特征,計(jì)算每個(gè)短序列特征的,每個(gè)短序列特征的權(quán)重是判斷其所在軟件樣本是否為惡意軟件的依據(jù),也是區(qū)分每個(gè)軟件樣本的依據(jù)。(4)前端融合前端融合的架構(gòu)如圖4所示,前端融合方式將三種模態(tài)的特征合并,然后輸入深度神經(jīng)網(wǎng)絡(luò),隱藏層的***函數(shù)為relu,輸出層的***函數(shù)是sigmoid,中間使用dropout層進(jìn)行正則化,防止過(guò)擬合,優(yōu)化器。自動(dòng)化測(cè)試發(fā)現(xiàn)7個(gè)邊界條件未處理的異常情況?;葜莸谌杰浖u(píng)測(cè)
從傳統(tǒng)到智能:艾策科技助力制造業(yè)升級(jí)之路。昆明第三方軟件評(píng)測(cè)單位
收藏查看我的收藏0有用+1已投票0軟件測(cè)試方法編輯鎖定本詞條由“科普**”科學(xué)百科詞條編寫(xiě)與應(yīng)用工作項(xiàng)目審核。軟件測(cè)試是使用人工或自動(dòng)的手段來(lái)運(yùn)行或測(cè)定某個(gè)軟件系統(tǒng)的過(guò)程,其目的在于檢驗(yàn)它是否滿足規(guī)定的需求或弄清預(yù)期結(jié)果與實(shí)際結(jié)果之間的差別。[1]從是否關(guān)心軟件內(nèi)部結(jié)構(gòu)和具體實(shí)現(xiàn)的角度劃分,測(cè)試方法主要有白盒測(cè)試和黑盒測(cè)試。白盒測(cè)試方法主要有代碼檢査法、靜態(tài)結(jié)構(gòu)分析法、靜態(tài)質(zhì)量度量法、邏輯覆蓋法、基夲路徑測(cè)試法、域測(cè)試、符號(hào)測(cè)試、路徑覆蓋和程序變異。黑盒測(cè)試方法主要包括等價(jià)類(lèi)劃分法、邊界值分析法、錯(cuò)誤推測(cè)法、因果圖法、判定表驅(qū)動(dòng)法、正交試驗(yàn)設(shè)計(jì)法、功能圖法、場(chǎng)景法等。[1]從是否執(zhí)行程序的角度劃分,測(cè)試方法又可分為靜態(tài)測(cè)試和動(dòng)態(tài)測(cè)試。靜態(tài)測(cè)試包括代碼檢査、靜態(tài)結(jié)構(gòu)分析、代碼質(zhì)量度量等。動(dòng)態(tài)測(cè)試由3部分組成:構(gòu)造測(cè)試實(shí)例、執(zhí)行程序和分析程序的輸出結(jié)果。昆明第三方軟件評(píng)測(cè)單位