百度搜刮引擎中文分詞與文本粒度
2016-05-13
是甚麼讓用戶對你的網站說拜拜?
2016-05-13
Show all

搜刮引擎檢索體系概述

  本日我先容搜刮引擎索引體系的也許事情流程。重要包含:query串切詞分詞,查出含每一個term的文檔聚集,求交,網站過濾,按需舉行終極排序。

  以下為文章全文:

  前面扼要先容過瞭搜刮引擎的索引體系,現實上在樹立倒排索引的末瞭還須要有一個入庫寫庫的進程,而為瞭進步效力這個進程還須要將全體term和偏移量保留在文件頭部,而且對數據舉行緊縮,這觸及到的過於技巧化在此就未幾提瞭。本日扼要給人人先容一下索引以後的檢索體系。

  檢索體系重要包括瞭五個部門,以下圖所示:

  (1)query串切詞分詞馬上用戶的查詢詞舉行分詞,對以後的查詢做預備,以10號線地鐵妨礙為例,大概的分詞以下(同義詞題目臨時略過):

  10 0x123abc

  號 0x13445d

  線 0x234d

  地鐵 0x145cf

  妨礙 0x354df

  (2)查出含每一個term的文檔聚集,即找出待全集合,以下:

  0x123abc 1 2 3 4 7 9..

  0x13445d 2 5 8 9 10 11

  

  

  (3)求交,上述求交,文檔2和文檔9大概是我們須要找的,全部求交進程現實上幹系著全部體系的機能,這內裡包括瞭應用緩存等等手腕舉行機能優化;

  (4)各類過濾,舉例大概包括過濾失落逝世鏈、反復數據、色情、渣滓成果和你懂的;

  (5)終極排序,將最能知足用戶需求的成果排序在最前,大概包含的有效信息如:網站的團體評價、網頁質量、內容質量、資本質量、婚配水平、疏散度、時效性等等,以後會具體給人人先容。

Comments are closed.