深度學(xué)習是人工智能的熱門領(lǐng)域,發(fā)展非常迅速,有望在未來幾年進入市場成熟階段。但非不幸的是,迫不及待的市場炒作把深度學(xué)習變成了人工智能的代名詞,言必稱深度學(xué)習,無深度學(xué)習不人工智能,這種以偏概全的誤導(dǎo)性炒作,不但夸大了深度學(xué)習的應(yīng)用領(lǐng)域和功效,也對人工智能整體的健康發(fā)展非常不利。數(shù)據(jù)分析公司Interset首席技術(shù)官Stephan Jou近日以人工智能在信息安全領(lǐng)域的應(yīng)用為例,探討了深度學(xué)習的定位和局限性,IT經(jīng)理網(wǎng)編譯整理如下:
在網(wǎng)絡(luò)安全領(lǐng)域,人們使用各種技術(shù)理論,包括統(tǒng)計、概率論以及各種機器學(xué)習算法(深度學(xué)習只是其中之一),來分析用例和數(shù)據(jù),選擇最好的數(shù)學(xué)方法或者算法來完成任務(wù)。安全分析的數(shù)據(jù)來自各種渠道,例如應(yīng)用日志、源代碼等等,根據(jù)安全專家對數(shù)據(jù)集和用例的理解來對癥下藥,選擇最合適的算法。
這個過程更依賴的是安全人員的一種工匠精神,因為他們面對的是相對較小的數(shù)據(jù)集,而各種行為的偵測非常微妙,例如從源代碼審計日志中偵測內(nèi)部威脅。相比之下,深度學(xué)習只是人工智能大框架中的一個專項技術(shù)而已,而且并不適用于上述場景。
簡單來說,深度學(xué)習是一組機器學(xué)習算法,其學(xué)習過程離不開大量多層互聯(lián)處理流程和海量數(shù)據(jù)樣本。在很多行業(yè)深度學(xué)習處理之所以可行,是因為有大量的數(shù)據(jù)和計算力可用,例如云計算和GPU。在海量數(shù)據(jù)和計算力的驅(qū)動下,深度學(xué)習的研發(fā)成果突飛猛進。以惡意軟件偵測為例,若干安全創(chuàng)業(yè)公司嘗試利用深度學(xué)習來分析惡意軟件樣本大數(shù)據(jù),取得了令人矚目的成效。另外一方面,研究人員也在嘗試如何讓深度學(xué)習的訓(xùn)練基于相對較小的數(shù)據(jù)集,例如醫(yī)學(xué)影像深度學(xué)習系統(tǒng)。(參考閱讀:大數(shù)據(jù)的小時代)
雖然在惡意軟件偵測方面取得斐然的成績,但是但是在安全領(lǐng)域,深度學(xué)習的局限性也很明顯,例如內(nèi)部人員威脅。安全專家或者企業(yè)通常無法獲取足夠多的相關(guān)攻擊信息,雖然也有一些基于實例的描述和模擬數(shù)據(jù),但是故事描述無法用來訓(xùn)練深度學(xué)習網(wǎng)絡(luò),而真實內(nèi)部人員攻擊事件的信息又太過稀缺。至少在今天,深度學(xué)習對于內(nèi)部人員威脅是牛刀殺雞或者說無能為力的。
未來,安全網(wǎng)絡(luò)的深度學(xué)習處理系統(tǒng)將能夠自動調(diào)整來適應(yīng)不斷增長的數(shù)據(jù)量,不斷優(yōu)化學(xué)習流程,深度學(xué)習網(wǎng)絡(luò)將能夠自動判斷那些數(shù)據(jù)更加容易預(yù)測,從而大幅減少對數(shù)據(jù)科學(xué)家引導(dǎo)的依賴。這種基于深度學(xué)習的自動化學(xué)習能力,將持續(xù)大幅提升分析結(jié)果的準確性,減少誤報。這些遠景,在今天還只是一種炒作。
在當下的現(xiàn)實中,與OpenStack等開源云計算技術(shù)類似,深度學(xué)習系統(tǒng)的搭建依然過于復(fù)雜,成本也居高不下,而且不經(jīng)過大量實驗,很難實現(xiàn)確定所謂的超參數(shù)(Hyperparameter)。訓(xùn)練一個深度學(xué)習模型需要的計算力和采購成本也遠高于其他機器學(xué)習模型。例如邏輯回歸模型簡單到可以在單機上處理小規(guī)模數(shù)據(jù)集,目前也依然是非常有效的分類任務(wù)處理方法,而深度學(xué)習系統(tǒng)的成本則遠高于這些機器學(xué)習算法。
總之,深度學(xué)習僅僅是諸多機器學(xué)習方法中的一種,對于特定類型的問題來說,應(yīng)用潛力巨大,但并非百病包治的萬靈藥。深度學(xué)習技術(shù)在一個領(lǐng)域的突破,也并不意味著對其他傳統(tǒng)人工智能或機器學(xué)習方法的實用性和價值的貶損。
本文作者Stephan Jou是數(shù)據(jù)分析公司Interset的CTO
新聞熱點
新聞爆料