近年來(lái),搜索引擎技術(shù)也在迅猛演進(jìn),從“關(guān)鍵詞搜索”到“SNS搜索”,再到“實(shí)體搜索”,搜索引擎變得越來(lái)越智能與社會(huì)化。為此,記者采訪(fǎng)了百度資深研發(fā)工程師辜斯繆。在辜斯繆的描繪下,一個(gè)搜索引擎的智能未來(lái),正在我們眼中呈現(xiàn)。
記者:辜斯繆您好!請(qǐng)問(wèn)一下近年來(lái)搜索引擎技術(shù)有什么發(fā)展?
百度辜斯繆:作為搜索引擎行業(yè)的領(lǐng)導(dǎo)企業(yè),百度一直在致力于搜索技術(shù)的研發(fā)和推進(jìn)。就我個(gè)人觀察,近年來(lái)搜索引擎呈現(xiàn)出“關(guān)鍵詞”-“SNS”-“實(shí)體搜索”的遞進(jìn)式發(fā)展,其搜索對(duì)象也從“信息片段”到了“人”以及“實(shí)體”。
記者:關(guān)鍵詞搜索大家都很熟悉了,SNS搜索和實(shí)體搜索是怎么回事呢?
百度辜斯繆:其實(shí)你比如百度空間、百度知道、百度貼吧這些社區(qū)式的服務(wù),當(dāng)然還有比如微博這樣的服務(wù),實(shí)際上是將人聚合在了一起。SNS搜索,實(shí)際上就是可以讓你找到你感興趣的人,這個(gè)大家也都有體會(huì)。你看到百度空間、百度知道、百度貼吧、微博上有令你感興趣的內(nèi)容,你也能進(jìn)一步找到這個(gè)人,和他/她交朋友。
而實(shí)體(entity)搜索是相對(duì)于關(guān)鍵詞(keyword)搜索而言的。關(guān)鍵詞搜索是只能針對(duì)你輸入的關(guān)鍵詞去檢索,搜索引擎按照字面意思勤勤懇懇的去找。
實(shí)體搜索關(guān)注的重點(diǎn)不是“關(guān)鍵詞”級(jí)別的信息,而是“對(duì)象”,比如:人,電影,軟件,小說(shuō),公司,組織等等。從關(guān)鍵詞向?qū)嶓w轉(zhuǎn)化,將從更精細(xì)的角度來(lái)理解和組織搜索結(jié)果。在一定程度上可以理解query(即用戶(hù)搜索需求)的意思,并直接給出答案。 一些更智能更個(gè)性化的交互也依賴(lài)于實(shí)體作為基礎(chǔ),比如搜“張藝謀導(dǎo)演的電影”。
記者:這讓我想起統(tǒng)計(jì)學(xué)的一個(gè)概念“集合”?
百度辜斯繆:是的,很多時(shí)候用戶(hù)的需求就是這樣,只知道想找某一類(lèi)東西,但并不明確具體要找的東西叫什么。對(duì)于這樣的需求,過(guò)去是一籌莫展的,而我們現(xiàn)在卻能夠智能的搜索到結(jié)果,并組織成一個(gè)集合呈現(xiàn)給用戶(hù)。事實(shí)上,百度在揣度用戶(hù)心思的方面做了很多努力,希望盡可能的識(shí)別出用戶(hù)的需求,哪怕用戶(hù)對(duì)需求的描述是多樣化的或者不規(guī)范的。
記者:比方說(shuō),我買(mǎi)了同仁堂這只股票,我搜索“同仁堂”也可以找到它的股票行情,或者搜索“600085”的股票代碼也可以搜索到它的行情?
百度辜斯繆:是的,現(xiàn)在的搜索引擎可以認(rèn)為已經(jīng)有了一定的人工智能,能夠猜到你到底要搜索什么并且能夠直接給你推送相關(guān)的結(jié)果。傳統(tǒng)搜索引擎只能“返回”用戶(hù)下的指令,實(shí)現(xiàn)不了智能的“發(fā)現(xiàn)”。比如你搜索“秋天開(kāi)花的樹(shù)”,需要在搜索結(jié)果中不斷去手動(dòng)探索答案。而實(shí)體搜索,用戶(hù)只需要通過(guò)一次點(diǎn)擊,就能得到想要的結(jié)果。之前需要用戶(hù)親自執(zhí)行的中間繁復(fù)的篩選+搜索的過(guò)程,全部由實(shí)體搜索代替用戶(hù)完成。
記者:這個(gè)挺有意思的,通俗說(shuō),搜索引擎能明白人類(lèi)想要搜索什么了,就直接憑借經(jīng)驗(yàn)給出結(jié)構(gòu)化的答案了。這是怎么實(shí)現(xiàn)的呢?
百度辜斯繆:在實(shí)體搜索方面,百度采用了深入的語(yǔ)義分析技術(shù),從分析實(shí)體屬性方向進(jìn)行算法創(chuàng)新。
實(shí)體搜索超越了傳統(tǒng)搜索只按關(guān)鍵詞的字面進(jìn)行信息查找的層面,比傳統(tǒng)搜索更加智能。這表現(xiàn)在實(shí)體搜索對(duì)關(guān)鍵詞的分析更加精細(xì),先分析出關(guān)鍵詞中的實(shí)體類(lèi)型,比如:動(dòng)植物,人,軟件,小說(shuō)等,再分析出關(guān)鍵詞中包含的有關(guān)這個(gè)實(shí)體的屬性,比如:好看的,不掉毛的,防輻射的等等,充分理解關(guān)鍵詞想表達(dá)的意思,得到用戶(hù)搜索時(shí)真正的需求。
記者:您剛才提到的這個(gè),應(yīng)該是要在后臺(tái)建立一個(gè)“實(shí)體”的標(biāo)簽集合吧?那這個(gè)工作量很大,百度是通過(guò)人工還是技術(shù)完成的?
百度辜斯繆:人工的成本和效率都不具備實(shí)操性。作為一家技術(shù)起家的公司,百度在這方面有自身長(zhǎng)期的積累。我們是通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)完成實(shí)體信息獲取、屬性挖掘、關(guān)聯(lián)信息挖掘的。
實(shí)體搜索背后,需要有一個(gè)關(guān)于實(shí)體的信息數(shù)據(jù)庫(kù),庫(kù)里的信息既要包含海量的實(shí)體信息,還要有能精確描述實(shí)體的相關(guān)屬性。實(shí)體庫(kù)的建設(shè)需要長(zhǎng)期的積累和強(qiáng)大的數(shù)據(jù)挖掘技術(shù),這正是百度的長(zhǎng)處。百度從互聯(lián)網(wǎng)海量的網(wǎng)頁(yè)中挖掘出有效的實(shí)體,對(duì)這些實(shí)體進(jìn)行分類(lèi),并能把關(guān)鍵的屬性也進(jìn)行分類(lèi),保證了實(shí)體信息的廣度,也保證了實(shí)體屬性的精度。
通過(guò)百度獨(dú)特的數(shù)據(jù)挖掘技術(shù),實(shí)體搜索能做到的不僅目前可見(jiàn)這些,還能提供更復(fù)雜的信息。比如實(shí)體之間的關(guān)聯(lián)。像人與人之間的關(guān)系,通過(guò)獲取到的資源,僅從字面信息是不能完全分辨的,需要更進(jìn)一步的挖掘和分析。比如明星的人物關(guān)系。最簡(jiǎn)單的是家庭關(guān)系,從一張網(wǎng)頁(yè)的字面信息就能直接獲取,明星之間的朋友關(guān)系就復(fù)雜一些,不能從一張網(wǎng)頁(yè)上得到,而是需要對(duì)明星人物相關(guān)的頁(yè)面進(jìn)行整理,提取其中的相關(guān)信息,通過(guò)分析和比較,才能得出結(jié)果。
記者:這太神奇了,以前還真沒(méi)有注意到。百度現(xiàn)在“實(shí)體搜索”已經(jīng)占到了多大比例,未來(lái)的發(fā)展會(huì)怎樣?
百度辜斯繆:目前比例還是非常小,在未來(lái),“實(shí)體搜索”會(huì)越來(lái)越扮演一個(gè)重要的角色,為廣大的百度用戶(hù)提供更加智能化的搜索體驗(yàn)。
記者:其他搜索引擎可能也在做類(lèi)似“實(shí)體搜索”的技術(shù)和體驗(yàn),百度相對(duì)競(jìng)爭(zhēng)對(duì)手的優(yōu)勢(shì)在哪里?
百度辜斯繆: 百度多年來(lái)一直致力于中文搜索技術(shù)的研發(fā),積累了大量的資源和技術(shù),其中就包括“實(shí)體搜索”所依托的知識(shí)挖掘技術(shù)以及用戶(hù)需求識(shí)別技術(shù)。同時(shí),我們一直在深入理解用戶(hù)行為,設(shè)計(jì)最能夠滿(mǎn)足用戶(hù)需求的產(chǎn)品。所以我們不會(huì)受特定的產(chǎn)品形式的限制,會(huì)有更多更有用也更有趣的產(chǎn)品推出來(lái),請(qǐng)大家拭目以待。 |