根據(jù)Google研究總監(jiān)Peter Norvig的說法,如果你在Google Trend上搜索“滿月”和“冰淇淋”,你會發(fā)現(xiàn)Google搜索與真實(shí)世界中的趨勢高度吻合:在上述關(guān)鍵詞的大量搜索中,“滿月”的搜索量峰值每28天出現(xiàn)一次!氨苛堋钡乃阉髅磕晗奶斓竭_(dá)峰值。海量的數(shù)據(jù)為我們呈現(xiàn)出一些非常有趣的事情。
如果你對搜索引擎的工作原理感興趣,或者希望了解海量數(shù)據(jù)如何幫助搜索引擎工作得更加有效率,建議你看看Google員工Alon Halevy、Peter Norvig和Fernando Pereira合寫的“數(shù)據(jù)不可思議之效力”(The Unreasonable Effectiveness of Data)。此外還強(qiáng)烈推薦看看Peter Norvig在大不列顛哥倫比亞大學(xué)的同主題演講,國內(nèi)IT人士可以跳墻去youtube搜看。
在演講中,Norvig用平實(shí)的語言和精彩的案例介紹大量數(shù)據(jù)配合算法如何解決一些領(lǐng)域的難題。例如:
詞義歧義消除(Word Sense Disambiguation)
大數(shù)據(jù)能幫助理解文檔和web中出現(xiàn)的多義詞的準(zhǔn)確詞義。
詞切分(Word Segmentation)
相比英語,詞切分對漢語這樣的語言更有價值。但至少對于域名名稱來說很有用,因?yàn)橛蛎膯卧~通常都是連寫的。
統(tǒng)計型機(jī)器翻譯(Statistical Machine Translation)
正如Norvig在演講中提到的,“我們居然可以為團(tuán)隊中沒有人懂的外語建立模型!”
此外還有一些論文與Norvig的研究題目有關(guān),也有助于幫助大家了解大數(shù)據(jù)如何應(yīng)用于搜索和搜索引擎,列在下面:
On the Value of Page-Level Interactions in Web Search (pdf)
Exploring Web Scale Language Models for Search Query Processing (pdf)
Via seobythesea
新聞熱點(diǎn)
新聞爆料