深度學習是人工智能的熱門領域,發(fā)展非常迅速,有望在未來幾年進入市場成熟階段。但非不幸的是,迫不及待的市場炒作把深度學習變成了人工智能的代名詞,言必稱深度學習,無深度學習不人工智能,這種以偏概全的誤導性炒作,不但夸大了深度學習的應用領域和功效,也對人工智能整體的健康發(fā)展非常不利。數(shù)據(jù)分析公司Interset首席技術官Stephan Jou近日以人工智能在信息安全領域的應用為例,探討了深度學習的定位和局限性,IT經(jīng)理網(wǎng)編譯整理如下:
在網(wǎng)絡安全領域,人們使用各種技術理論,包括統(tǒng)計、概率論以及各種機器學習算法(深度學習只是其中之一),來分析用例和數(shù)據(jù),選擇最好的數(shù)學方法或者算法來完成任務。安全分析的數(shù)據(jù)來自各種渠道,例如應用日志、源代碼等等,根據(jù)安全專家對數(shù)據(jù)集和用例的理解來對癥下藥,選擇最合適的算法。
這個過程更依賴的是安全人員的一種工匠精神,因為他們面對的是相對較小的數(shù)據(jù)集,而各種行為的偵測非常微妙,例如從源代碼審計日志中偵測內(nèi)部威脅。相比之下,深度學習只是人工智能大框架中的一個專項技術而已,而且并不適用于上述場景。
簡單來說,深度學習是一組機器學習算法,其學習過程離不開大量多層互聯(lián)處理流程和海量數(shù)據(jù)樣本。在很多行業(yè)深度學習處理之所以可行,是因為有大量的數(shù)據(jù)和計算力可用,例如云計算和GPU。在海量數(shù)據(jù)和計算力的驅(qū)動下,深度學習的研發(fā)成果突飛猛進。以惡意軟件偵測為例,若干安全創(chuàng)業(yè)公司嘗試利用深度學習來分析惡意軟件樣本大數(shù)據(jù),取得了令人矚目的成效。另外一方面,研究人員也在嘗試如何讓深度學習的訓練基于相對較小的數(shù)據(jù)集,例如醫(yī)學影像深度學習系統(tǒng)。(參考閱讀:大數(shù)據(jù)的小時代)
雖然在惡意軟件偵測方面取得斐然的成績,但是但是在安全領域,深度學習的局限性也很明顯,例如內(nèi)部人員威脅。安全專家或者企業(yè)通常無法獲取足夠多的相關攻擊信息,雖然也有一些基于實例的描述和模擬數(shù)據(jù),但是故事描述無法用來訓練深度學習網(wǎng)絡,而真實內(nèi)部人員攻擊事件的信息又太過稀缺。至少在今天,深度學習對于內(nèi)部人員威脅是牛刀殺雞或者說無能為力的。
未來,安全網(wǎng)絡的深度學習處理系統(tǒng)將能夠自動調(diào)整來適應不斷增長的數(shù)據(jù)量,不斷優(yōu)化學習流程,深度學習網(wǎng)絡將能夠自動判斷那些數(shù)據(jù)更加容易預測,從而大幅減少對數(shù)據(jù)科學家引導的依賴。這種基于深度學習的自動化學習能力,將持續(xù)大幅提升分析結果的準確性,減少誤報。這些遠景,在今天還只是一種炒作。
在當下的現(xiàn)實中,與OpenStack等開源云計算技術類似,深度學習系統(tǒng)的搭建依然過于復雜,成本也居高不下,而且不經(jīng)過大量實驗,很難實現(xiàn)確定所謂的超參數(shù)(Hyperparameter)。訓練一個深度學習模型需要的計算力和采購成本也遠高于其他機器學習模型。例如邏輯回歸模型簡單到可以在單機上處理小規(guī)模數(shù)據(jù)集,目前也依然是非常有效的分類任務處理方法,而深度學習系統(tǒng)的成本則遠高于這些機器學習算法。
總之,深度學習僅僅是諸多機器學習方法中的一種,對于特定類型的問題來說,應用潛力巨大,但并非百病包治的萬靈藥。深度學習技術在一個領域的突破,也并不意味著對其他傳統(tǒng)人工智能或機器學習方法的實用性和價值的貶損。
本文作者Stephan Jou是數(shù)據(jù)分析公司Interset的CTO
新聞熱點
新聞爆料