網(wǎng)站優(yōu)化中Robots協(xié)議的原則標(biāo)簽及其他屬性
Robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。robots.txt文件是一個文本文件,使用任何一個常見的文本編輯器,比如Windows系統(tǒng)自帶的Notepad,就可以創(chuàng)建和編輯它。robots.txt是一個協(xié)議,而不是一個命令。robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
一、原則
Robots協(xié)議是國際互聯(lián)網(wǎng)界通行的道德規(guī)范,基于以下原則建立:
1、搜索技術(shù)應(yīng)服務(wù)于人類,同時尊重信息提供者的意愿,并維護(hù)其隱私權(quán);
2、網(wǎng)站有義務(wù)保護(hù)其使用者的個人信息和隱私不被侵犯。
二、標(biāo)簽
Robots.txt文件主要是限制整個站點或者目錄的搜索引擎訪問情況,而Robots Meta標(biāo)簽則主要是針對一個個具體的頁面。和其他的META標(biāo)簽(如使用的語言、頁面的描述、關(guān)鍵詞等)一樣,Robots Meta標(biāo)簽也是放在頁面中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。
Robots Meta標(biāo)簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=”BaiduSpider”。content部分有四個指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。
1.index指令告訴搜索機(jī)器人抓取該頁面;
2.follow指令表示搜索機(jī)器人可以沿著該頁面上的鏈接繼續(xù)抓取下去;
3.Robots Meta標(biāo)簽的缺省值是index和follow,只有inktomi除外,對于它,缺省值是index、nofollow。
三、其他屬性
1. Robot-version: 用來指定robot協(xié)議的版本號
例子: Robot-version: Version 2.0
2.Crawl-delay:雅虎YST一個特定的擴(kuò)展名,可以通過它對我們的抓取程序設(shè)定一個較低的抓取請求頻率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序兩次進(jìn)入站點時,以秒為單位的最低延時。
3. Visit-time:只有在visit-time指定的時間段里,robot才可以訪問指定的URL,否則不可訪問.
例子: Visit-time: 0100-1300 #允許在凌晨1:00到13:00訪問
4. Request-rate: 用來限制URL的讀取頻率
例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之間,以每分鐘40次的頻率進(jìn)行訪問
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之間,以每分鐘12次的頻率進(jìn)行訪問
轉(zhuǎn)載請注明來自:http://www.zfmj.com.cn/help/seo/153068.html
標(biāo)簽:網(wǎng)站優(yōu)化 Robots 海之睿