讓互聯網技術普惠中小企業
成為中小企業信任並依賴的雲服務夥

文章標題
文章摘要
文章內容
全文搜索

熱門話題

什麼是搜索引擎爬蟲？

瀏覽數量： 4 作者：本站編輯發佈時間： 2022-03-29 來源：本站

crawling被稱為爬蟲，是搜索引擎的抓取機器人，用來抓取新的內容，內容可以是網頁、圖像、視頻、PDF 等各種形式，內容都是通過鏈接被發現的。

Googlebot（谷歌抓取機器人也就是爬蟲）從獲取幾個網頁開始，然後按照這些網頁上的鏈接查找新的 URL。通過沿著這條鏈接路徑跳躍，爬蟲能夠找到新內容並將內容添加到名為Caffeine（一個包含已發現 URL 的龐大數據庫）的索引中，之後搜索者能夠更快速的查找到 URL 上的內容。

一、爬蟲：搜索引擎能找到你的網頁嗎？

正如上面所講，想要網頁出現在 SERP 中的先決條件是確保網站內容被抓取並編入索引。

倘若我們有一個網站，最好先查看在索引中有多少頁面，這些在索引中的內容頁面會影響 Google 最終抓取的頁面結果。

檢查索引頁面的一種方法是前往谷歌搜索欄中輸入“site:yourdomain.com”，這是一種高級搜索運算符，能夠返回 Google 在其索引中指定站點的結果：

Google 顯示的結果數量並不准確，但通過這些結果我們可以清楚地了解到我們的網站上哪些頁面已經編入索引，以及這些網頁在搜索結果中的顯示方式。

要獲得更準確的結果，我們可以先註冊一個免費的Google Search Console 帳戶，使用GSC工具監控實際有多少網站頁面已經在 Google 的索引中，獲取索引覆蓋率報告

如果我們的網頁沒有出現在搜索結果中，可能有以下幾個原因：

①　網站是全新的，尚未被抓取。

②　網站未鏈接到任何外部網站。

③　網站的導航使機器人很難有效地抓取它。

④　網站包含一些稱為爬蟲指令的基本代碼，這些代碼會阻止搜索引擎。

⑤　網站因垃圾郵件策略受到了 Google 的處罰。

二、指導搜索引擎抓取我們的網站

如果我們使用以上兩種方式發現我們網站的一些重要頁面從索引中丟失或一些不重要頁面被錯誤地編入索引，我們可以利用一些優化措施指導 Googlebot 抓取我們的網絡內容，提升網站的可抓取性，便於之後更好地控制索引中的內容。

1.查看Google可以使用 MOZ PRO 抓取哪些頁面

大多數人都在考慮讓 Google 可以找到網站的重要頁面，但我們也不希望 Googlebot 抓取網站中的舊 URL、重複 URL、特殊促銷代碼頁、和臨時測試頁面。

robots.txt可以引導 Googlebot 遠離我們網站的這些頁面。 Robots.txt 文件位於網站的根目錄（例如 yourdomain.com/robots.txt），特定的 robots.txt 指令決定著搜索引擎應該或不應該抓取哪部分內容，以及它們抓取網站的速度。

Googlebot 處理 robots.txt 文件的幾種情況

①　如果 Googlebot 找不到某個網站的 robots.txt 文件，它會繼續抓取該網站。

②　如果 Googlebot 發現某個網站的 robots.txt 文件，它通常會遵守建議並繼續抓取該網站。

③　如果 Googlebot 在嘗試訪問網站的 robots.txt 文件時遇到錯誤並且無法確定該文件是否存在，它將不會抓取該網站。

但是並非所有網絡機器人都遵循 robots.txt。一些不良行為者會利用 robots.txt 文件來查找我們的私人內容的位置。通過阻止爬蟲訪問諸如登錄和管理頁面等私人頁面，這樣私人信息內容就不會出現在索引中，

如果將這些 URL 的位置放在可公開訪問的 robots.txt 文件中，很有可能會被抓取並公開，最好將私密的信息網頁封閉在登錄表單後面，而不是將它們放在我們的 robots.txt 文件中被抓取。

2.在 GSC 中定義 URL 參數

一些電子商務網站會在 URL 上添加某些參數，讓相同的內容可以在多個不同的 URL 上使用。例如，在網上購物時，我們可能已經通過過濾器縮小了搜索範圍。當我們搜索“鞋子”，可以按尺碼、顏色和款式細化我們的搜索，每次細分的優化，URL 都會有所變化。

Google怎麼知道向搜索者提供哪個版本的 URL更好呢？ Google 在自己確定代表 URL 方面做得很好，我們也可以使用 Google Search Console（GSC）中的 URL 參數功能告訴 Google 我們希望它如何處理我們的頁面。

如果我們使用GSC中的 URL 參數功能告訴 Googlebot“不要抓取帶有____參數的 URL”，搜索結果中這些頁面的信息就不會展示。

三、爬蟲能找到你所有的重要內容嗎？

以上是如何讓搜索引擎抓取工具遠離網站中非重要內容的策略，接下來，讓我們了解哪些優化策略可以讓 Googlebot 找到我們的重要頁面。

有時，搜索引擎將會抓取我們網站的某些頁面信息，但其他頁面信息可能由於某些原因會被遮擋，無法抓取。因此，確保搜索引擎能夠發現所有我們想要被索引的內容是很重要的一點。

1.網站內容是否隱藏在登錄表單後面？

如果網站要求用戶在訪問某些內容之前需要登錄、填寫表格或回答問題，搜索引擎將不會看到這些受保護的頁面，爬蟲也不會登錄這些頁面。

2.網站是否依賴搜索表單？

有些人認為，如果他們在他們的網站上放置一個搜索框，搜索引擎將能夠找到訪問者搜索的所有內容。但事實是，Googlebot不能使用搜索表單。

3.文本是否隱藏在非文本內容中？

避免使用非文本媒體形式（圖像、視頻、GIF 等）來顯示我們希望被索引的文本。雖然搜索引擎在識別圖像方面做得越來越好，但搜索引擎並不能理解所有圖片，所以最好在網頁的標記中添加文本。

4.搜索引擎可以跟隨網站導航嗎？

正如爬蟲需要通過來自其他網站的鏈接來發現我們的網站一樣，它也需要我們網站上的鏈接來引導它從轉到另一個頁面。

如果我們希望搜索引擎找到某個頁面，但任何其他頁面都沒有與這個頁面建立鏈接，這個頁面也很難被發現。

許多網站構建的導航搜索引擎都無法訪問，這樣會阻礙了網站在搜索結果中的展現能力。

5.常見的導航錯誤可能會阻止爬蟲查看我們的所有網站：

①　擁有與桌面導航顯示不同的移動導航

②　菜單項不在 HTML 中的任何類型的導航，例如啟用 JavaScript 的導航。谷歌在抓取和理解 Javascript 方面做得更好，但它仍然不是一個完美的過程。將其放入 HTML 中是內容被 Google 找到、理解和索引的更可靠的方法。

③　個性化，向特定類型的訪問者顯示獨特的導航。

④　忘記通過導航鏈接到我們網站上的主頁，鏈接是爬蟲跟踪到新頁面的路徑。

因此，我們的網站必須具有清晰的導航和有用的 URL 文件夾結構。

6.信息架構乾淨的嗎？

信息架構是為了提高提高用戶效率和可查找性，對網站上內容進行組織和標記。直觀的信息架構最有效，因為用戶不必費力思考就可以瀏覽我們的網站或查找所需內容。

7.你在使用站點地圖嗎？

站點地圖就是它聽起來的樣子：我們網站的 URL 列表，爬蟲可以使用這些 URL 來發現和索引我們的內容。創建一個符合 Google 標準的文件並通過 Google Search Console 提交，是Google 找到網站優質內容頁面的最簡單方法之一。

雖然提交站點地圖並不能取代頁面導航，但它肯定可以幫助爬蟲找到通往所有重要頁面的路徑。

即使我們的站點沒有任何其他站點鏈接到它，我們仍然可以在 Google Search Console 中提交我們的 XML 站點地圖，雖然不能保證在索引中包含所有提交的 URL，但被索引的機會會更大。

四、爬蟲在訪問我們的 URL 時是否會出錯？

在抓取我們網站上的 URL 的過程中，抓取工具可能會遇到錯誤。遇到這種情況可以轉到 Google Search Console 的“抓取錯誤”報告來檢測可能發生這種情況的 URL ，此報告將提示我們是服務器錯誤或是未找到的錯誤。

在我們看到抓取錯誤報告之前，了解服務器錯誤和“未找到”錯誤非常重要。

4xx 代碼：客戶端錯誤而無法訪問網頁

4xx 錯誤是客戶端錯誤，這意味著請求的 URL 包含錯誤的語法或無法實現。最常見的 4xx 錯誤之一是“404 – Not Found”錯誤。這可能是由於 URL 拼寫錯誤、頁面被刪除或重定向損壞。

5xx 代碼：服務器錯誤而無法訪問網頁

5xx 錯誤是服務器錯誤，表示網頁所在的服務器未能滿足搜索者或搜索引擎訪問該頁面的請求。在 Google Search Console 的“抓取錯誤”報告中，有一個專門針對這些錯誤的選項卡，通常是因為對 URL 的請求超時，因此 Googlebot 放棄了該請求。

但是，有一種方法可以告訴搜索者和搜索引擎我們的頁面已移動 - 301（永久）重定向。

301 狀態代碼意味著頁面已永久移動到新位置，因此請避免將 URL 重定向到不相關的頁面。如果一個頁面正在針對某個關鍵詞進行排名，而我們將其 301 轉到與搜索結果不相關的 URL，網頁的排名位置可能會下降。

我們還可以選擇 302 重定向頁面，302 有點像繞道而行。暫時通過特定路線吸引流量，但不可以永遠這樣。

經過多次重定向的Googlebot可能很難到達我們的頁面。谷歌可能會對這些“重定向鏈”採取限制，因此，網站需要盡可能的減少重定向次數。

以上就是針對網站的可抓取性的優化策略，可以有效提升網站內優質內容的被索引率。