什麼是 Robots.txt？

Robots.txt 是一個標準文件，網站使用該文件與網路爬蟲和其他網路機器人進行通信，以告知它們不應在搜尋引擎結果中處理、掃描或編制索引的網站網頁和區域。

Robot.txt 有什麼作用？

robots.txt 檔案告訴網路機器人（也稱為爬蟲）網域擁有者不希望它們「抓取」哪些頁面或檔案。機器人造訪您的網站，然後索引（儲存）您的網頁和文件，然後將它們列在搜尋引擎結果頁面上。

如果您不希望 Google 和其他搜尋引擎列出某些頁面或文件，則需要使用 robots.txt 文件阻止它們。

您可以透過在頂部網址列中的網域後面添加 /robots.txt 來檢查您的網站是否有 robots.txt 檔案：

在搜尋引擎抓取您的網站之前，它會查看您的 robots.txt 文件，以獲取有關允許它們抓取哪些頁面並在搜尋引擎結果中建立索引的說明。

如果您希望搜尋引擎不建立索引，Robots.txt 檔案非常有用：

1) 您網站上的頁面重複或損壞。

2) 內部搜尋結果頁面。

3) 您網站的某些區域或整個網域。

4) 您網站上的某些文件，例如圖像和 PDF。

5) 登入頁面。

6) 為開發人員建置網站。

使用 robots.txt 檔案可以消除沒有任何價值的頁面，因此搜尋引擎會專注於抓取最重要的頁面。搜尋引擎的「抓取預算」有限，每天只能抓取一定數量的頁面，因此您希望透過阻止所有不相關的 URL 為它們提供快速找到您頁面的最佳機會。

您還可以實施抓取延遲，它告訴機器人在抓取某些頁面之前等待幾秒鐘，以免伺服器超載。請注意，Googlebot 不會接受此命令，因此請優化您的抓取預算，以獲得更強大且面向未來的解決方案。

如果您目前沒有 robots.txt 文件，建議盡快建立一個。為此，您需要：

1) 建立新的文字檔案並將其命名為「robots.txt」 – 使用文字編輯器（例如Windows PC 上的記事本程式或Mac 上的TextEdit），然後「另存為」文字分隔文件，確保擴充名是該檔案名稱為「.txt」。

2) 將其上傳到您網站的根目錄 - 這通常是一個名為「htdocs」或「www」的根級資料夾，這使得它直接出現在您的網域之後。

3) 為每個子網域建立一個 robots.txt 檔案 – 僅當您使用任何子網域時。

4) 測試 – 透過在瀏覽器網址列輸入 yourdomain.com/robots.txt 檢查 robots.txt 檔案。

阅读更多 点击這裡.

[optin-monster slug=”em8z7q6hga9elmy1dbgb”]

你可能還喜歡...