dede怎么做視頻網(wǎng)站網(wǎng)站seo設(shè)計(jì)
原文網(wǎng)址:SEO系列--robots.txt的用法-CSDN博客
簡(jiǎn)介
本文介紹網(wǎng)站的robots.txt文件的用法。
Robots是站點(diǎn)與搜索引擎爬蟲溝通的重要渠道,站點(diǎn)通過(guò)robots文件聲明本網(wǎng)站中不想被搜索引擎抓取的部分或者只讓搜索引擎抓取指定內(nèi)容。
搜索引擎使用spider(爬蟲)程序自動(dòng)獲取網(wǎng)頁(yè)信息。spider訪問(wèn)網(wǎng)站時(shí),首先檢查該網(wǎng)站根域下是否有robots.txt的純文本文件,比如:https://example.com/robots.txt。
如果robots.txt不存在或者為空文件,表示允許所有的搜索引擎robot訪問(wèn)和收錄。
robots.txt文件格式
robots.txt文件放置于根目錄下,比如:https://example.com/robots.txt,包含一條或更多的記錄,這些記錄通過(guò)回車分割。
一條記錄的格式如下所示:
<field>:<optional space><value><optionalspace>
- 可以使用#進(jìn)行注解
- 通常以一行或多行User-agent開始,后面加上若干Disallow和Allow行
通配符
可以使用通配符*和$來(lái)模糊匹配url。
*:匹配0或多個(gè)任意字符
$:匹配行結(jié)束符。
User-agent
該項(xiàng)的值用于描述搜索引擎robot的名字。至少要有一條User-agent記錄。如果有多條User-agent記錄說(shuō)明有多個(gè)robot會(huì)受到"robots.txt"的限制。
如果設(shè)為*,則允許所有robot訪問(wèn)。即:User-agent:*。(這樣的記錄只能有一條)。
如果加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名為"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。
Disallow
表示不希望被訪問(wèn)的一組URL,這個(gè)值可以是一條完整的路徑,也可以是路徑的非空前綴。
例如:
- Disallow:/help:禁止robot訪問(wèn)/help.html、/helpabc.html、/help/index.html
- Disallow:/help/:允許robot訪問(wèn)/help.html、/helpabc.html,不能訪問(wèn)/help/index.html。
Allow
表示允許訪問(wèn)的一組URL,與Disallow項(xiàng)相似,這個(gè)值可以是一條完整的路徑,也可以是路徑的前綴。
例如:
- Allow: /hibaidu:允許robot訪問(wèn)/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。
Sitemap
表示站點(diǎn)地圖的地址:
Sitemap: https://abc.com/mysitemap.txt
對(duì)于百度來(lái)說(shuō),支持以下兩種Sitemap格式:
- txt文本格式
- xml格式
示例
最常用的配置?
User-agent: *
Allow: /
Disallow: /*?*Sitemap: https://abc.com/mysitemap.xml
例1.允許所有的robot訪問(wèn)
User-agent: *
Allow: /
(或者也可以建一個(gè)空文件robots.txt)。
一般情況下,防止參數(shù)里有垃圾信息,導(dǎo)致網(wǎng)站收錄量變少或被ban,要禁止帶參數(shù):
User-agent: *
Allow: /
Disallow: /*?*
例2.禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何部分
user-agent: *
Disallow: /
例3.僅禁止Baiduspider訪問(wèn)您的網(wǎng)站
user-agent: Baiduspider
Disallow: /
例4.僅允許Baiduspider訪問(wèn)您的網(wǎng)站
User-agent: Baiduspider
Allow: /User-agent:*
Disallow: /
例5.僅允許Baiduspider以及Googlebot訪問(wèn)
User-agent: Baiduspider
Allow: /User-agent: Googlebot
Allow: /User-agent: *Disallow: /
例6.禁止spider訪問(wèn)特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /~joe/
在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對(duì)搜索引擎的訪問(wèn)做了限制,不允許robot訪問(wèn)這三個(gè)目錄。需要注意的是:對(duì)每一個(gè)目錄必須分開聲明,而不能寫成這樣:Disallow: /cgi-bin/ /temp/
例7.允許訪問(wèn)特定目錄中的部分url
User-agent: *
Allow:/tmp/hi
Allow: /~joe/look
Allow: /cgi-bin/see
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例8.使用*限制訪問(wèn)url
禁止訪問(wèn)/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
例9.使用$限制訪問(wèn)url
僅允許訪問(wèn)以.htm為后綴的URL。
User-agent: *
Allow: *.htm$
Disallow: /
例10.禁止Baiduspider抓取網(wǎng)站上所有圖片
僅允許抓取網(wǎng)頁(yè),禁止抓取任何圖片。
user-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /".pngs
Disallow: /*.bmps
例12.僅允許Baiduspider抓取網(wǎng)頁(yè)和.gif格式圖片
允許抓取網(wǎng)頁(yè)和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baiduspider
Allow: * .gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例13.僅禁止Baiduspider抓取.Jpg格式圖片
User-agent: Baiduspider
Disallow: /*.jpg$