robots可否完全屏障搜刮蜘蛛的匍匐與索引

Published by webmaster at 2016-05-13

Tags

[db:标签]

　　說到屏障搜刮蜘蛛的抓取，天然而然的就會想到robots.txt文檔。robots.txt是甚麼?實在在此前惠州SEO葉劍輝也已對此舉行瞭基本的解釋。robots.txt是一種寄存在網站空間根目次下的文本文件，是一種協定，用來告知搜刮蜘蛛網站中哪些可被匍匐抓取，哪些弗成被匍匐抓取。但是，在這裡，葉劍輝有著這麼一個疑問，robots.txt是不是能完全屏障蜘蛛的匍匐抓取呢?

　　robots.txt能屏障蜘蛛的匍匐抓取

　　克日，石友襄陽SEO茶妹碰到瞭這麼一個題目：我明顯用robots.txt屏障瞭wordpress中的目次文件呀，為何蜘蛛逐日仍舊照舊匍匐呢?爾後，葉劍輝天然便查網站robots.txt文檔，以下就是對wordpress目次屏障設置：

　　Disallow: /wp-admin

　　Disallow: /wp-content

　　Disallow: /wp-includes

　　在檢察事後，發明瞭這麼一個題目，這是目次文件屏障，但是，這屏障設置後邊卻好像缺乏瞭/，而葉劍輝舉行征詢時，石友倒是這麼以為：目次文件前邊加上瞭/便可以瞭，後邊加沒有加都一樣的呀。對此，葉劍輝倒是另外一種意見，在後邊加上與未加上/,對付蜘蛛而言是兩種觀點，加上瞭是告知蜘蛛，這是一個文件夾，而未加上即告知蜘蛛這是一個文件，也是以致使明顯在robots.txt上做好瞭設置，卻沒能有用的屏障。固然這僅僅是葉劍輝的小我意見。

　　繼而，石友服從發起將robots.txt修正為：

　　Disallow: /wp-admin/

　　Disallow: /wp-content/

　　Disallow: /wp-includes/

　　勝利修正後便在百度站長平臺舉行提交從新天生操縱(須要留意的是，若沒有自動提交天生，靠蜘蛛自行臨盆的話，耗時較長的喔)，在當天也就見效瞭。隔往後再對日記舉行檢察，發明蜘蛛對這三個wordpress下的目次真的沒有再匍匐抓取瞭。

　　從這麼一點上看，在我們舉行網站SEO優化之時，實在不克不及疏忽任何細節，僅僅一個/，可帶來的倒是紛歧樣的後果。

　　robots.txt不克不及完全屏障蜘蛛的匍匐抓取

　　而在這一題目辦理後，石友在這文件屏障上卻又有瞭另外一題目：明顯把某個目次屏障瞭呀，為何蜘蛛照樣可以或許抓取收錄該目次下的某個文件呢?

　　那末，在這裡葉劍輝就須要做一個解釋，robots.txt協定並不是是一個尺度，一個范例，隻是商定俗成罷瞭而已，平日搜刮引擎會辨認這個文件，但也有一些特別情形。(如之前的360事宜就沒有作為此次評論辯論內容)

　　不管是百度亦或是谷歌，某個頁面隻要有其他網站鏈接到該頁面的話，一樣有大概會被索引和收錄。要想完全屏障頁面文件被谷歌索引的話(縱然有其他網站鏈接到該頁面文件)，則須要在頁面head中插入noindex元標志或x-robots-tag。以下：

　　當谷歌蜘蛛看到頁面上著noindex的元標志，就會將此頁從谷歌搜刮成果中完整拋棄，疏忽是不是另有其他頁鏈接到此頁。

　　而百度呢?對付百度而言，其實不支撐如谷歌那般經由過程noindex完整將網頁從索引上刪除，僅支撐noarchive元標志來制止百度表現網頁快照。詳細語句以下：

　　上面這個標志隻是制止百度表現該頁面快照，但百度仍會為其建索引，並在搜刮成果中表現網頁擇要。

　　盡人皆知，淘寶網經由過程robots.txt全站屏障百度蜘蛛，可為何我們在百度搜刮淘寶網時第一個成果也是淘寶網首頁地點呢?而在我們檢察該頁面快照時倒是表現空缺?是以看來，網站隻能制止百度快照的表現，卻沒法做到制止百度為網頁建索引。

　　停止語：

　　回到葉劍輝在文章首段所說到的疑問，robots.txt是不是能完全屏障蜘蛛的匍匐抓取呢?信任在看到這麼一個題目,會有這麼一部門同夥的答復是確定的。而這隻能說，我們都缺乏瞭擅長去發明的心，而對付沒能有用屏障蜘蛛抓取，隻能解釋我們的優化事情做得不敷精致。

　　由這麼兩個robots.txt的小題目上，葉劍輝以為，阻攔我們進階為SEO妙手的大概就是那擅長發明題目的心和精致化的履行力。

　　原文出自惠州SEO博客 /搜索引擎優化/823.html 葉劍輝首創供稿

webmaster

Comments are closed.

robots可否完全屏障搜刮蜘蛛的匍匐與索引

搜刮營銷中：若何做好網站內容營銷

百度算法轉變淺析優化碰到的困難

robots可否完全屏障搜刮蜘蛛的匍匐與索引

webmaster

Related posts

推行要立異：新站上線2天沖破1300IP