封鎖還是不封鎖?萬用字元、拼寫錯誤和其他robots.txt歧義

4 years ago 141
ARTICLE AD BOX

robots.txt記錄比我們今天使用的狩獵引擎更古老,它只是網絡上的一隻恐龍。儘管有大量討論協定的文章,但對於檔案的使用,本站將自動篩選過度的歧義、國家案例和不同的未記錄場景

你為什麼要在乎

robots.txt只是一個方便的、可分析的搜尋引擎優化工具,如果不小心處理,很容易產生意想不到的結果。雖然在使用“允許”和“不允許”指令時,我們有意識地排除過度的拼寫錯誤和模糊的俄勒岡州衝突規則,但我們還應該認識到,在這些情况下,狩獵引擎的行為是多麼成功

robots.txt:網絡上的泡芙食品

robots.txt類似於河豚魚:美味但有毒。長期食用砷是無害的,但SEO廚師知道如何使用它。他們認識記錄格式、語法和分組規則。它們承認用戶代理的優先權,但基於URL匹配的連接管道值起作用

機器人排除協定(REP)已經慶祝了25年,其規範還沒有通過不適當的呼叫規則正式化。然而,我們無法觀察到SEO和網站管理員社區的誤用和混亂,不幸的是,這會影響成功的次優展示和對過度網站的成功蒐索

囙此,讓我們;讓我們澄清和發展過度的環境困惑規則

忽略尾隨萬用字元;帶有萬用字元的規則的優先順序未定義;路徑價值:從&lsquo/&rsquo;要指定根目錄,Google不需要;t製定處理<欄位>;元素有元素錯誤俄勒岡州拼寫錯誤

快速實施我們開始得更早:過度的螢幕截圖成功本站娛樂我們的robots.txt驗證和調查工具,該工具基於physique連接了原型robots.txt檔案,其行為類似於追跡工具和庫(也利用了我們的成功研究):

穀歌蒐索控制台;s robots.txt測試儀
  • 移動友好測試和GSC;s的URL檢查工具,如果URL被robots.txt封锁,則該工具將出錯。Google robots.txt解析器和匹配器庫存在於未綁定的源中

    總結這些工具,我們;ve除了利用百度;s robots.txt Tester,並確認我們的測試結果將未記錄的URL(未爬網的俄勒岡州)與服務器日誌檔連接起來


    1)將忽略尾隨萬用字元

    據穀歌稱;s robots.txt規範中,將忽略尾隨萬用字元

    來源:https://developers.google.com/search/reference/robots_txt

    但這是真的嗎?好吧,是和否。它是&ldquo;忽略&rdquo;成功就是意識到决心是一種“成功”;隱式&rdquo;*萬用字元astate不以$結尾的每條路徑的端點(這是明確指定URL端點的不同萬用字元)
    囙此,/fish=/fish*以前只是簡單地將URL與路徑匹配

    但是,在合計路徑長度時,不會忽略尾隨萬用字元。這在過去變得很重要,儘管同時使用了禁止和允許規則,但部分不同的是,它們提供了一個特殊的URL(或可接受的URL)

    這條路的規模是非常重要的 在URL中確定以前聚合行(規則)的優先順序出價

    在上圖中,URL將被封锁爬行 因為Disallow連接比(也匹配)Allow指令長

    在規範中,穀歌表示“穀歌:;在衝突規則的訴訟中[&hellip;]使用了最輕微的限制性規範。”;換言之,如果某些匹配路徑的長度超過上述長度,則使用允許正則化意志鈹

    正如成功的例子所示,穀歌的成功;s檔案&hellip

    來源:https://developers.google.com/search/reference/robots_txt

    &hellip;並清楚地說明了代表草案的成功之處

    現在,回到我們的尾隨萬用字元。如果將1添加到“鈹”中;失去&rdquo;在我們以前的例子中,判决將與鈹不同

    使用尾隨萬用字元時,只要不允許規則的管道存在,Allow指令的管道就存在,並且TROUTH優先

    使用尾隨萬用字元時,Disallow指令的管道將出現更長的時間,並且正在使用TRUSTER,因為尾隨萬用字元不是&ldquo;忽略&rdquo;以前在確定像散時&ldquo;具體的&rdquo;基於lucifer的連接長度。


    2)政府;未定義帶有萬用字元的規則的優先順序

    穀歌;向首長部門提供的檔案;帶有萬用字元的規則的優先順序未定義&rdquo

    來源:https://developers.google.com/search/reference/robots_txt(已更新)