瀏覽數量: 0 作者: 本站編輯 發佈時間: 2022-03-30 來源: 本站
搜索引擎的運行主要通過三個功能:爬蟲、索引和排名。
上次,我們已經了解了爬蟲,今天我們來看一看搜索引擎需要的第二個主要功能——索引。
將搜索引擎在第一階段爬取和發現的內容進行分類重組,存進索引庫的過程叫做索引。頁面被索引之後,如果搜索者查詢的問題答案被收錄索引庫中,搜索引擎會將這些相關的答案網頁展示在搜索結果頁面。
如果我們的網站內容已經被搜索引擎抓取,那麼,接下來的工作就是確保這些被抓取的頁面能夠編入索引。因為,網站被搜索引擎發現和抓取,並不意味著頁面有機會存儲在索引中。
在前面搜索引擎爬蟲的介紹中,我們了解了搜索引擎如何發現我們的網頁。搜索引擎爬蟲在找到一個頁面後,會對頁面內容進行分析,被爬蟲抓取到的信息都會存儲在索引中。
頁面內容既可以被存儲也可以從索引中刪除,以下是可能刪除 URL 的一些主要原因:
① URL 正在返回“not found”錯誤 (4XX) 或服務器錯誤 (5XX) – 這可能是意外的(頁面已移動且未設置 301 重定向)或故意的(頁面已被刪除並 404ed 以便將其從索引中刪除)
② 該 URL 添加了 no index 元標記,添加此標記意味著搜索引擎在索引時會省略該頁面。
③ 該 URL 因違反搜索引擎的網站指南而受到處罰。
④ 該 URL 已被阻止抓取,並在訪問者訪問該頁面之前添加了所需的密碼。
如果以前在 Google 索引中的網站頁面突然不再顯示,你可以使用URL 檢查工具了解頁面的狀態,或使用具有“請求索引”功能的Fetch as Google向索引提交單個 URL。
如果想要按照自己的要求處理網頁,可以利用元指令或元標籤向搜索引擎發出指令。
例如:告訴搜索引擎爬蟲“不要在搜索結果中將此頁面編入索引”或“不要讓任何鏈接轉到此頁面”。
這些指令都可以通過 HTML 頁面
中的元標籤或通過網頁標頭中的 X-Robots-Tag 執行。元標籤可在網頁 HTML 的
中使用。它可以排除所有或特定的網頁內容。以下是最常見的元標籤,以及可以應用它們的情況。
index/noindex標籤:搜索引擎是否需要抓取頁面並保存在搜索引擎的索引中,以便後續以進行檢索。
默認情況下,搜索引擎是可以索所有頁面,因此沒有必要使用“index”值。
如果你希望頁面不要在搜索引擎結果呈現,可以選擇使用“noindex”。
什麼時候可以使用:
當你想從 Google 的網站索引中刪去某些頁面,但是又希望訪問者可以訪問到這些網頁,可以將頁面標記為“noindex”。
follow/nofollow標籤:搜索引擎頁面上的鏈接是應該被關注還是不被關注。
“關注”會導致搜索引擎關注頁面上的鏈接並將鏈接轉到這些 URL。
如果選擇“nofollow”,搜索引擎將不會關注到帶有此標籤的網頁,並阻止其他鏈接跳轉轉到該頁面。
默認情況下,所有的頁面都有“follow”標籤。
什麼時候可以使用:
nofollow 通常與 noindex 一起使用,用來阻止頁面被索引,或阻止爬蟲跟踪頁面上的鏈接。
以下是元機器人 noindex、nofollow 標籤的示例:
noarchive標籤:用於限制搜索引擎保存頁面的緩存副本。
默認情況下,引擎會保留已編入索引的所有頁面的可見副本,搜索者可以通過搜索結果中的緩存鏈接查看。
什麼時候可以使用:
如果一個電子商務網站產品的價格經常發生變化,可以使用 noarchive元 標籤防止搜索者看到之前的價格。
x-robots 標籤:在URL 的 HTTP 標頭中,大規模阻止某類型的內容,此標籤的功能也更加靈活。
例如,
你可以排除整個文件夾或文件類型
(如 moz.com/no-bake/old-recipes-to-noindex):
也可以排除特定文件類型(如 PDF):
這些標籤陷阱會阻止搜索引擎發現我們網站裡需要展示的重要頁面,了解影響爬蟲和索引的不同方式有利於我們避免常見的索引指令陷阱,更深入的了解搜索引擎對網頁內容的索引,清晰的掌握搜索引擎的工作原理。