**小化對數(shù)損失基本等價于**大化分類器的準(zhǔn)確度,對于完美的分類器,對數(shù)損失值為0。對數(shù)損失函數(shù)的計算公式如下:其中,y為輸出變量即輸出的測試樣本的檢測結(jié)果,x為輸入變量即測試樣本,l為損失函數(shù),n為測試樣本(待檢測軟件的二進(jìn)制可執(zhí)行文件)數(shù)目,yij是一個二值指標(biāo),表示與輸入的第i個測試樣本對應(yīng)的類別j,類別j指良性軟件或惡意軟件,pij為輸入的第i個測試樣本屬于類別j的概率,m為總類別數(shù),本實(shí)施例中m=2。分類器的性能也可用roc曲線(receiveroperatingcharacteristic)評價,roc曲線的縱軸是檢測率(true****itiverate),橫軸是誤報率(false****itiverate),該曲線反映的是隨著檢測閾值變化下檢測率與誤報率之間的關(guān)系曲線。roc曲線下面積(areaunderroccurve,auc)的值是評價分類器比較綜合的指標(biāo),auc的值通常介于,較大的auc值一般表示分類器的性能較優(yōu)。(3)特征提取提取dll和api信息特征視圖dll(dynamiclinklibrary)文件為動態(tài)鏈接庫文件,執(zhí)行某一個程序時,相應(yīng)的dll文件就會被調(diào)用。一個應(yīng)用程序可使用多個dll文件,一個dll文件也可能被不同的應(yīng)用程序使用。api(applicationprogramminginterface)函數(shù)是windows提供給用戶作為應(yīng)用程序開發(fā)的接口。專業(yè)機(jī)構(gòu)認(rèn)證該程序內(nèi)存管理效率優(yōu)于行業(yè)平均水平23%。系統(tǒng)安全測評服務(wù)
將三種模態(tài)特征和三種融合方法的結(jié)果進(jìn)行了對比,如表3所示。從表3可以看出,前端融合和中間融合較基于模態(tài)特征的檢測準(zhǔn)確率更高,損失率更低。后端融合是三種融合方法中較弱的,雖然明顯優(yōu)于基于dll和api信息、pe格式結(jié)構(gòu)特征的實(shí)驗(yàn)結(jié)果,但稍弱于基于字節(jié)碼3-grams特征的結(jié)果。中間融合是三種融合方法中**好的,各項性能指標(biāo)都非常接近**優(yōu)值。表3實(shí)驗(yàn)結(jié)果對比本實(shí)施例提出了基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測方法,提取了三種模態(tài)的特征(dll和api信息、pe格式結(jié)構(gòu)信息和字節(jié)碼3-grams),提出了通過三種融合方式(前端融合、后端融合、中間融合)集成三種模態(tài)的特征,有效提高惡意軟件檢測的準(zhǔn)確率和魯棒性。實(shí)驗(yàn)結(jié)果顯示,相對**且互補(bǔ)的特征視圖和不同深度學(xué)習(xí)融合機(jī)制的使用明顯提高了檢測方法的檢測能力和泛化性能,其中較優(yōu)的中間融合方法取得了%的準(zhǔn)確率,對數(shù)損失為,auc值為,各項性能指標(biāo)已接近**優(yōu)值。考慮到樣本集可能存在噪聲,本實(shí)施例提出的方法已取得了比較理想的結(jié)果。由于惡意軟件很難同時偽造多個模態(tài)的特征,本實(shí)施例提出的方法比單模態(tài)特征方法更魯棒。以上所述*為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。軟件項目 檢測報告第三方測評顯示軟件運(yùn)行穩(wěn)定性達(dá)99.8%,未發(fā)現(xiàn)重大系統(tǒng)崩潰隱患。
并將測試樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖輸入步驟s2訓(xùn)練得到的多模態(tài)深度集成模型中,對測試樣本進(jìn)行檢測并得出檢測結(jié)果。實(shí)驗(yàn)結(jié)果與分析(1)樣本數(shù)據(jù)集選取實(shí)驗(yàn)評估使用了不同時期的惡意軟件和良性軟件樣本,包含了7871個良性軟件樣本和8269個惡意軟件樣本,其中4103個惡意軟件樣本是2011年以前發(fā)現(xiàn)的,4166個惡意軟件樣本是近年來新發(fā)現(xiàn)的;3918個良性軟件樣本是從全新安裝的windowsxpsp3系統(tǒng)中收集的,3953個良性軟件樣本是從全新安裝的32位windows7系統(tǒng)中收集的。所有的惡意軟件樣本都是從vxheavens網(wǎng)站中收集的,所有的樣本格式都是windowspe格式的,樣本數(shù)據(jù)集構(gòu)成如表1所示。表1樣本數(shù)據(jù)集類別惡意軟件樣本良性軟件樣本早期樣本41033918近期樣本41663953合計82697871(2)評價指標(biāo)及方法分類性能主要用兩個指標(biāo)來評估:準(zhǔn)確率和對數(shù)損失。準(zhǔn)確率測量所有預(yù)測中正確預(yù)測的樣本占總樣本的比例,*憑準(zhǔn)確率通常不足以評估預(yù)測的魯棒性,因此還需要使用對數(shù)損失。對數(shù)損失(logarithmicloss),也稱交叉熵?fù)p失(cross-entropyloss),是在概率估計上定義的,用于測量預(yù)測類別與真實(shí)類別之間的差距大小。
先將訓(xùn)練樣本的dll和api信息特征視圖、格式信息特征視圖以及字節(jié)碼n-grams特征視圖分別輸入至一個深度神經(jīng)網(wǎng)絡(luò)中抽取高等特征表示,然后合并抽取的高等特征表示并將其作為下一個深度神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行模型訓(xùn)練,得到多模態(tài)深度集成模型。進(jìn)一步的,所述多模態(tài)深度集成模型的隱藏層的***函數(shù)采用relu,輸出層的***函數(shù)采用sigmoid,中間使用dropout層進(jìn)行正則化,優(yōu)化器采用adagrad。進(jìn)一步的,所述訓(xùn)練得到的多模態(tài)深度集成模型中,用于抽取dll和api信息特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含3個隱含層,且3個隱含層中間間隔設(shè)置有dropout層;用于抽取格式信息特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含2個隱含層,且2個隱含層中間設(shè)置有dropout層;用于抽取字節(jié)碼n-grams特征視圖的深度神經(jīng)網(wǎng)絡(luò)包含4個隱含層,且4個隱含層中間間隔設(shè)置有dropout層;用于輸入合并抽取的高等特征表示的深度神經(jīng)網(wǎng)絡(luò)包含2個隱含層,且2個隱含層中間設(shè)置有dropout層;所述dropout層的dropout率均等于。本發(fā)明實(shí)施例的有益效果是,提出了一種基于多模態(tài)深度學(xué)習(xí)的惡意軟件檢測方法,應(yīng)用了多模態(tài)深度學(xué)習(xí)方法來融合dll和api、格式結(jié)構(gòu)信息、字節(jié)碼n-grams特征。如何選擇適合企業(yè)的 IT 解決方案?
綜合上面的分析可以看出,惡意軟件的格式信息和良性軟件是有很多差異性的,以可執(zhí)行文件的格式信息作為特征,是識別已知和未知惡意軟件的可行方法。對每個樣本進(jìn)行格式結(jié)構(gòu)解析,提取**每個樣本實(shí)施例件的格式結(jié)構(gòu)信息,可執(zhí)行文件的格式規(guī)范都由操作系統(tǒng)廠商給出,按照操作系統(tǒng)廠商給出的格式規(guī)范提取即可。pe文件的格式結(jié)構(gòu)有許多屬性,但大多數(shù)屬性無法區(qū)分惡意軟件和良性軟件,經(jīng)過深入分析pe文件的格式結(jié)構(gòu)屬性,提取了可能區(qū)分惡意軟件和良性軟件的136個格式結(jié)構(gòu)屬性,如表2所示。表2可能區(qū)分惡意軟件和良性軟件的pe格式結(jié)構(gòu)屬性特征描述數(shù)量(個)引用dll的總數(shù)1引用api的總數(shù)1導(dǎo)出表中符號的總數(shù)1重定位節(jié)的項目總數(shù),連續(xù)的幾個字節(jié)可能是完成特定功能的一段代碼,或者是可執(zhí)行文件的結(jié)構(gòu)信息,也可能是某個惡意軟件中特有的字節(jié)碼序列。pe文件可表示為字節(jié)碼序列,惡意軟件可能存在一些共有的字節(jié)碼子序列模式,研究人員直覺上認(rèn)為一些字節(jié)碼子序列在惡意軟件可能以較高頻率出現(xiàn),且這些字節(jié)碼序列和良性軟件字節(jié)碼序列存在明顯差異??蓤?zhí)行文件通常是二進(jìn)制文件,需要把二進(jìn)制文件轉(zhuǎn)換為十六進(jìn)制的文本實(shí)施例件,就得到可執(zhí)行文件的十六進(jìn)制字節(jié)碼序列?;?AI 視覺識別的自動化檢測系統(tǒng),助力艾策實(shí)現(xiàn)生產(chǎn)線上的零缺陷品控目標(biāo)!信息系統(tǒng)安全評測
第三方實(shí)驗(yàn)室驗(yàn)證數(shù)據(jù)處理速度較上代提升1.8倍。系統(tǒng)安全測評服務(wù)
程序利用windows提供的接口(windowsapi)實(shí)現(xiàn)程序的功能。通過一個可執(zhí)行程序引用的動態(tài)鏈接庫(dll)和應(yīng)用程序接口(api)可以粗略的預(yù)測該程序的功能和行為。統(tǒng)計所有樣本的導(dǎo)入節(jié)中引用的dll和api的頻率,留下引用頻率**高的60個dll和500個api。提取特征時,每個樣本的導(dǎo)入節(jié)里存在選擇出的dll或api,該特征以1表示,不存在則以0表示,提取的560個dll和api特征作為***個特征視圖。提取格式信息特征視圖pe是portableexecutable的縮寫,初衷是希望能開發(fā)一個在所有windows平臺上和所有cpu上都可執(zhí)行的通用文件格式。pe格式文件是封裝windows操作系統(tǒng)加載程序所需的信息和管理可執(zhí)行代碼的數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)**是大量的字節(jié)碼和數(shù)據(jù)結(jié)構(gòu)的有機(jī)融合。pe文件格式被**為一個線性的數(shù)據(jù)流,由pe文件頭、節(jié)表和節(jié)實(shí)體組成。惡意軟件或被惡意軟件***的可執(zhí)行文件,它本身也遵循格式要求的約束,但可能存在以下特定格式異常:(1)代碼從**后一節(jié)開始執(zhí)行;(2)節(jié)頭部可疑的屬性;(3)pe可選頭部有效尺寸的值不正確;(4)節(jié)之間的“間縫”;(5)可疑的代碼重定向;(6)可疑的代碼節(jié)名稱;(7)可疑的頭部***;(8)來自;(9)導(dǎo)入地址表被修改;(10)多個pe頭部;(11)可疑的重定位信息;。系統(tǒng)安全測評服務(wù)