百度搜刮引擎的目標就是在知足絕大部門用戶的需求下供給最準確最豐碩的搜刮成果,對付搜刮引擎而言,用戶逗留時光越短,越解釋搜刮引擎的高效性和精確性,不論是百度的輕運用、貼心搜刮,照樣谷歌的語義搜刮、蜂鳥算法,或是360的我的搜刮,都是為瞭可以或許贊助人們更便利的找到所求。
而對付搜刮引擎而言,想要給用戶最需求的就須要去斷定用戶搜刮詞的企圖。而搜刮引擎隻管異常高效,數據庫異常宏大,但它究竟沒有是那末智能,不克不及間接斷定出搜刮詞的意義,隻管谷歌已頒佈能夠借助加倍龐雜的搜刮要求更好的懂得人類說話的觀點,而沒有是一些零碎的單詞,如許的搜刮能供給加倍精準的成果,即整句搜刮。但這隻是一小步,搜刮引擎豈論是舉行索引照樣網頁排序仍須要對文本舉行切分,即中文分詞。分詞仍舊是最基本也是最主要的。而在中文分詞進程中文本粒度起到癥結性的感化。
文本粒度
所謂文本粒度,對付搜刮引擎而言:粒度是權衡文本所含信息量的巨細。文本含信息量越多,粒度就越大,反之就小。有人會說那簡略啊,固然詞越長含有的信息量就越大,你肯定?那木木搜索引擎優化告知你一個小玩意:肌聯卵白是今朝已知的最大卵白質,名字足足有189819個字母,是名不虛傳最大的單詞。這個單詞的信息量是有多大?閑話未幾說,先來看上面幾組詞中,哪些的粒度大,哪些的粒度小。
蘿卜、葡萄、乒乓
龍井、籃球、赤色、橡皮檫
踢球、拔河、談愛情、爬山
高清電視機、南非雙人遊、呼喚中間體系
第一組詞由兩個字構成,然則僅表達一個意義,這些詞的粒度是小的。而第二組詞固然也根本由兩個字構成,也隻要一個意義,但這些詞還能夠拆分,如籃和球、橡皮和檫、踢和球等,這類詞粒度要略微大一些。爾後面的第四組,沒有要說粒度就更大瞭。