百度:搜刮引擎抓取體系概述
2016-05-13
搜刮引擎語義聯系關系斷定
2016-05-13
Show all

搜刮引擎的Robots規矩

  robots.txt是一種寄存於網站根目次下的文本文件,用於告知搜刮引擎的爬蟲(spider),此網站中的哪些內容是不該被搜刮引擎的索引,哪些是能夠被索引。平日以為,robots.txt文件用來搜刮引擎對目的網頁的抓取。

  robots.txt協定其實不是一個范例,而隻是商定俗成的,平日搜刮引擎會辨認這個文件,但也有一些特別情形。

  對付Google來講,應用robots也一定能阻攔Google將網址編入索引,假如有其他網站鏈接到該網頁的話,Google依舊有大概會對其舉行索引。依照Google的說法,要想完全阻攔網頁的內容在Google網頁索引中(縱然有其他網站鏈接到該網頁)湧現,須要應用noindex元標志或x-robots-tag。比方將上面的一行參加到網頁的header部門。

  

  假如Google看到某一頁上有noindex的元標志,就會將此頁從Google的搜刮成果中完整拋棄,而不論是否另有其他頁鏈接到此頁。

  

  對付百度來講,情形和Google相似,假如有其他網站鏈接目的網頁,也有大概會被百度收錄,從百度的解釋頁面上看,百度其實不支撐像Google那樣經由過程noindex完整將網頁從索引上刪除,隻支撐應用noarchive元標志來制止百度表現網頁快照。詳細的語句以下。

  

  上面這個標志隻是制止百度表現該網頁的快照,百度會持續為網頁建索引,並在搜刮成果中表現網頁擇要。

Comments are closed.