對付一個站長來講應當異常有需要和須要清晰的曉得本身網站的一個綜合信息,包含當天來瞭若幹IP,有瞭若幹轉換率,用戶是經由過程甚麼門路進入到你的網站的,這些站長都必需得異常清晰的曉得!網站的排名、收錄都要常常存眷搜刮引擎,人人常常談判到蜘蛛抓取,那末怎樣肯定蜘蛛有無來過你的網站呢? 平日網站的日記會告知我們這些信息。上面就告知人人搜刮引擎蜘蛛甚麼時刻來過你的網站及匍匐後返回的代碼:
平日網站的日記會告知我們這些信息。筆者應用的是假造空間,在筆者網站根目次下的log文件夾內裡有一些ex日期.log文本文件。在這裡提示人人,假如在你的log文件夾裡沒有文件,大概須要你到假造空間背景先下載日記文件到FTP空間,也就是下載到你的網站根目次的log文件夾時裡。我挑選ex101116.log下載到當地,用記事本翻開,在日記文件中搜刮spider這個詞,也就是蜘蛛的意義。有大概會發明以下的代碼:
谷歌蜘蛛: 谷歌bot
百度蜘蛛:百度spider
yahoo蜘蛛:slurp
soso蜘蛛:sosospider
msn蜘蛛:msnbot
有道蜘蛛:YodaoBot和OutfoxBot
搜狗蜘蛛:sougouspider
固然,條件是這些蜘蛛來過你的網站,不然是沒有這些代碼的。
我們挑選一條百度蜘蛛代碼百度spider的記載,看下內裡的代碼:
舉例:2010-11-15 18:18:18 174.192.105.6 GET /news-2011-4-11.html – 80 -220.181.108.166
Baiduspider+ (+/search/spider。htm) – 200 ….
上面我來說明下這段代碼:
1、2010-11-15 18:18:18 是百度蜘蛛來的日期和時光。
2、 GET /news-2011-4-11.html是百度蜘蛛拜訪的頁面 get表現獵取的意義。
3、80是端口
4、220.181.108.166是百度蜘蛛的ip地點
5、Baiduspider+(+www。百度。com/search/spider。htm)就是指百度蜘蛛瞭
6、 我自已網站的地點
7、200表現抓取勝利,這是百度蜘蛛匍匐後返回的代碼。
別的另有一些其他的代碼代表的狀況:
2xx 勝利
200 一般;要求已完成。
201 一般;緊接 POST 敕令。
202 一般;已接收用於處置,但處置還沒有完成。
203 一般;部門信息 返回的信息隻是一部門。
204 一般;無相應 已吸收要求,但沒有存在要回送的信息。
3xx 重定向
301 已挪動 要求的數據具有新的地位且變動是永遠的。
302 已找到 要求的數據暫時具有分歧 URI。
303 請參閱別的 可在另外一 URI 下找到對要求的相應,且應應用 GET 辦法檢索此相應。
304 未修正 未按預期修正文檔。
305 應用署理 必需經由過程地位字段中供給的署理來拜訪要求的資本。
306 未應用 沒有再應用;保存此代碼以便未來應用。
4xx 客戶機中湧現的毛病
400 毛病要求 要求中有語法題目,或不克不及知足要求。
401 未受權 未受權客戶機拜訪數據。
402 須要付款 表現計費體系已有用。
403 制止 縱然有受權也沒有須要拜訪。
404 找沒有到 辦事器找沒有到給定的資本;文檔沒有存在。
407 署理認證要求 客戶機起首必需應用署理認證本身。
410 要求的網頁沒有存在(永遠);
415 介質范例沒有受支撐 辦事器謝絕辦事要求,由於沒有支撐要求實體的格局。
5xx 辦事器中湧現的毛病
500 內部毛病 由於不測情形,辦事器不克不及完成要求。
501 未履行 辦事器沒有支撐要求的對象。
502 毛病網關 辦事器吸收到來自上遊辦事器的無效相應。
503 沒法得到辦事 因為暫時過載或保護,辦事器沒法處置要求。
比來發明一些仿冒Baiduspider抓取的情形,供給兩種斷定是不是為Baiduspider的辦法。
辦法1Linux情況下
您可使用host ip敕令反解ip來斷定Baiduspider的抓取是不是假裝。Baiduspider的hostname以*.百度.com的格局定名,非*.百度.com即為假裝。
$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer 百度spider-123-125-66-120.crawl.百度.com.
辦法2windows情況下
開端->運轉->tracert 123.456.78.90(即抓取您網站的IP地點)
大概開端->運轉->nslookup 123.456.78.90
檢察name信息,未標識為Baiduspider即為假裝。
本文首創:瑞麗女人網 (Www.Qubaqu.com) 轉載請務必說明出處.