Robots.txt:搜尋引擎優化的終極指南(2021版)

2 years ago 181
ARTICLE AD BOX

今天您;然而,我們要去larn為網站製作一份astir挑剔的檔案;s SEO:

(robots.txt檔案)

具體而言,我:;不過,我很高興您能够使用robots排除協定從特殊頁面中創建工件機器人,總結爬網頻率,優化爬網預算,同時還可以獲得很多關閉頁面的資訊;s排名成功的SERP

I’m包括:

  • 什麼是robots.txt記錄
  • 為什麼robots.txt很重要
  • robots.txt的工作原理
  • Robots.txt用戶代理和指令
  • Robots.txt與元機器人
  • 如何找到你的robots.txt
  • 創建robots.txt檔案
  • Robots.txt記錄冠軍訓練
  • Robots.txt示例
  • 如何稽核robots.txt中的錯誤

再加上一整批。讓我們;讓我們近距離潜水

什麼是Robots.txt檔案?還有,為什麼你需要一個

從根本上講,robots.txt記錄是網絡機器人的指導手册

它會通知機器人每種類型,它們應該(也不應該)爬行的區域

這就是說,robots.txt主要是一個“行為準則”為狩獵機動機器人(又名網路爬蟲)的設定提供動力

robots.txt會定期被每個大型狩獵引擎(包括穀歌、必應和雅虎)檢查,以獲取訓示,但它們應該在網站上爬行。這些訓示;是已知的砷指令

如果確定不正確–俄勒岡州nary robots.txt記錄–搜尋引擎會自動抓取整個網站、後臺頁面和所有內容

儘管astir hunt引擎很順從,但它;遵守robots.txt指令是可選的,這一點對於製定法規很重要。如果他們願意,狩獵引擎可以忽略你的robots.txt檔案

值得慶倖的是,穀歌沒有這麼做;那些狩獵引擎中的T1。穀歌傾向於遵守robots.txt檔案中的訓示

為什麼Robots.txt很重要

擁有robots.txt記錄並不重要;不要挑剔一批網站,尤其是小網站;一個

這;這是因為GoogleTin通常會找到並縮放與網站相連的每個不可或缺的頁面

而且;ll不會自動縮放不重要的重複內容俄勒岡州頁面

但仍然存在一些問題;從未有過欺負者壓碎了不給人一個robots.txt記錄–老實說,我勸你一個人

robots.txt為您提供了更强大的動力,而hunt引擎可以提供更强大的動力;t爬網連接您的網站,這;由於不同的原因:

允許非公共頁面從搜尋引擎封锁鈹

有時,您的個人頁面會連接到您不知道的領域;貧困指數化

例如,您可能需要處理一個調用方網站連接的過渡情况,在啟動之前,您對鈹的瞭解是對用戶隱藏的

或者您可以使用whitethorn person網站登錄頁面,但您不需要;貧困顯示出成功的SERP

如果是這種情況,您可以使用robots.txt從hunt motor crawlers中創建這些頁面

控制搜尋引擎爬網預算

如果您;如果你的每一頁都被成功的搜尋引擎索引了,你可能會遇到爬網基金的問題

簡單地說,搜尋引擎正在利用分配給您的剪輯來抓取您的網站;它的載重量頁

通過使用robots.txt封锁低劣的URL,狩獵機器人可以行走它們的大部分爬行資金連接最重要的頁面

防止對資源進行索引

It’s冠軍能指的用法是“無索引&rdquo ;元指令;封锁特殊頁面被索引

職業是,元指令don’不適用於多媒體資源、類似PDF和Word檔案

這;在robots.txt方便的地方

你可以在robots.txt檔案中添加物質元素,搜尋引擎將無法訪問這些多媒體檔案

(I’ll鈹準確地向您展示了如何抨擊(本帖)

Robots.txt(確切地說)是如何工作的

正如我已經分享的,robots.txt記錄是一本狩獵機動機器人的指導手册。它告訴狩獵機器人應該爬到哪裡(或者不應該爬到哪裡)

這就是為什麼一個狩獵爬蟲自願尋找一個robots.txt記錄砷很快就會到達一個網站

如果它找到robots.txt,爬行器將繼續其對網站的爬行

如果網路爬蟲沒有;找不到robots.txt,俄勒岡州有記錄不是包含禁止狩獵機器人的指令;活動中,爬蟲的意志繼續爬行整個區域

對於hunt bots可查找和讀取的鈹記錄robots.txt,robots.txt以精確的特殊管道格式化

首先,它只是一個沒有HTML標記編碼的物質記錄(囙此副檔名為.txt)

其次,它成功地放置在網站的基本資料夾中,例如。,https://seosherpa.com/robots.txt.

第三,它使用模組化語法,每個robots.txt檔案都通用,類似於:

網站地圖:[網站地圖的URL確定] 用戶代理:[機器人識別字] [指令1] [指令2] [指令…] 用戶代理:[另一個機器人識別字] [指令1] [指令2] [指令…]

這種語法讓人望而生畏,目光呆滯,但它;這真的很簡單

簡言之,您可以指定訓示使用的bot(用戶代理)以及bot應遵循的規則(指令)

讓我們;讓我們詳細研究這兩個組件

用戶代理

用戶代理是用來指定間接網路爬蟲的工具–不同的程式連接到互聯網

有;字面上有數百個特殊代理,包括工具類型和瀏覽器的代理

大多數都與robots.txt記錄和搜尋引擎優化的話語無關。另一方面,你應該知道:

  • 穀歌:穀歌機器人
  • 穀歌影像:;穀歌機器人影像
  • 穀歌視頻:穀歌機器人視頻
  • 穀歌新聞:穀歌機器人新聞必應:BingbotBing影像和視頻:MSNBot媒體雅虎:咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕咕嚕;鴨子機器人

通過說明特殊代理人,您;我們能够為對偶搜尋引擎提供可接受的對偶規則

例如,如果你想要一個明確的頁面來顯示成功的穀歌搜索結果,而不是百度搜索,你可以看到兩組命令成功地顯示你的robots.txt檔案:1個可接受,前面加上“用戶代理:Bingbot”1可接受,前面加上“用戶公司