瀏覽數量: 235 作者: 本站編輯 發佈時間: 2018-02-04 來源: 本站
一、什麼是Robots文件?
1、Robots定義
robots是網站站點與搜索引擎蜘蛛程序(spider)溝通的重要渠道,站點通過robots文件聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的範圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。
請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。目前,維看系統中設置的Robots文件是允許所有內容都被搜索引擎收錄的。
2、robots.txt文件的格式
robots文件往往放置於根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:
\"
在該文件中可以使用#進行註解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,後面加上若干Disallow和Allow行,詳細情況如下:
User-agent:該項的值用於描述搜索引擎robot的名字。在\"robots.txt\"文件中,如果有多條User-agent記錄說明有多個robot會受到\"robots.txt\"的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則對任何robot均有效,在\"robots.txt\"文件中,\"User-agent:*\"這樣的記錄只能有一條。如果在\"robots.txt\"文件中,加入\"User-agent:SomeBot\"和若干Disallow、Allow行,那麼名為\"SomeBot\"只受到\"User-agent:SomeBot\"後面的 Disallow和Allow行的限制。
Disallow:該項的值用於描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被 robot訪問。例如\"Disallow:/help\"禁止robot訪問/help.html、/helpabc.html、/help/index.html,而\"Disallow:/help/\"則允許robot訪問/help.html、/helpabc.html,不能訪問/help/index.html。 \"Disallow:\"說明允許robot訪問該網站的所有url,在\"/robots.txt\"文件中,至少要有一條Disallow記錄。如果\"/robots.txt\"不存在或者為空文件,則對於所有的搜索引擎robot,該網站都是開放的。
Allow:該項的值用於描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL 是允許robot訪問的。例如\"Allow:/hibaidu\"允許robot訪問/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一個網站的所有URL默認是Allow的,所以Allow通常與Disallow搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有URL的功能。
使用\"*\"and\"$\":Baiduspider支持使用通配符\"*\"和\"$\"來模糊匹配url。
\"*\" 匹配0或多個任意字符
\"$\" 匹配行結束符。
最後需要說明的是:百度會嚴格遵守robots的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,百度會對robots中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則robots協議無法生效。
3、常用Robots文件的寫法
1、允許所有搜索引擎訪問
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
在這里大家要注意下,可以最直接的建一個空文件 “robots.txt”然後放到網站的根目錄。
2、禁止所有搜索引擎訪問
User-agent: *
Disallow: /
或者
User-agent: *
allow:
3、禁止所有搜索引擎訪問網站中的幾個部分,在這裡我用a、b、c目錄來代替
User-agent: *
Disallow: /a/
Disallow: /b/
Disallow: /c/
如果是允許,則是
Allow: /a/
Allow: /b/
Allow: /c/
4、禁止某個搜索引擎的訪問,我用w來代替
User-agent: w
Disallow: /
或
User-agent: w
Disallow: /d/*.htm
在Disallow:後面加 /d/*.htm的意思是禁止訪問/d/目錄下的所有以”.htm”為後綴的URL,包含子目錄。
5、只允許某個搜索引擎的訪問,我用e來代替
User-agent: e
Disallow:
在Disallow:後面不加任何東西,意思是僅允許e訪問該網站。
6、使用”$”限制訪問url
User-agent: *
Allow: .htm$
Disallow: /
意思是僅允許訪問以”.htm”為後綴的URL
7、禁止訪問網站中所有的動態頁面
User-agent: *
Disallow: /*?*
8、禁止搜索引擎F抓取網站上所有圖片
User-agent: F
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
意思是只允許引擎抓取網頁,禁止抓取任何圖片(嚴格來說,是禁止抓取jpg、jpeg、gif、png、bmp格式的圖片。)
9、只允許搜索引擎E抓取網頁和.gif格式圖片
User-agent: E
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意思是只允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片
注意事項:
絕大多數的搜索引擎機器人都遵守robots文件的規則,關於怎麼寫robots文件的方法,大致就是這些了。要提醒大家的是:robots.txt文件一定要寫對,如果不太會寫,還是要先了解再寫,以免給網站的收錄帶來麻煩。
二、在維看系統中,如何設置Robots文件?
第1步:登錄維看系統,做如下操作:
第2步:在下圖中設置Robots文件,保存;
以下是維看標準的robots.txt的代碼,可以讓搜索引擎不收錄沒有SEO意義的頁面。
User-agent:* Disallow: /phoenix/ Allow: /phoenix/admin/ext/ Disallow: /phoenix/ Allow: /phoenix/admin/ext/ Disallow: /contactus.html Disallow: /inquire.html Disallow: /edit-user-profile.html Disallow: /user-profile.html Disallow: /account.html Disallow: /find-password.html Disallow: /change-password.html Disallow: /regist-success.html Disallow: /regist.html Disallow: /login.html Disallow: /download.html Disallow: /faqlist.html Disallow: /offline.html Disallow: /access-password.html Disallow: /404.html Disallow: /authority.html Disallow: /article-inquire-success.html Disallow: /article-inquire.html Disallow: /Hot-Products.html Disallow: /China-Hot-Products.html Disallow: /gallery.html Disallow: /inquire-success.html Disallow: /contactus-success.html Disallow: /sitemap.html Disallow: /products.html sitemap: https://www.qvbuilding.com/sitemap.xml
把qvbuilding.com換成你自己的域名
第3步:保存,發布即可生效。
如果是網站上的單個頁面不需要被收錄,可以在這個頁面的源代碼裡面加上一個meta robots標籤: 。這個需要領動工作人員來添加,若有這種需求請聯繫QQ:214227632。