關于購物網站及網頁小游戲的robots協議 robots協議怎么看


Robots協議-"盜亦有道"
根據協議,網站管理員可以在網站域名的根目錄下放一個robots.txt 文本文件,里面可以指定不同的網絡爬蟲能訪問的頁面和禁止訪問的頁面,指定的頁面由正則表達式表示 。網絡爬蟲在采集這個網站之前,首先獲取到這個文件,然后解析到其中的規則,然后根據規則來采集網站的數據 。
注意,這個協議的存在更多的是需要網絡爬蟲去遵守,而起不到防止爬蟲的功能 。
互聯網上的網頁是通過超級鏈接互相關聯起來的,從而形成了網頁的網狀結構 。爬蟲的工作方式就像蜘蛛在網上沿著鏈接爬來爬去,最基本的流程可以簡化如下:
了解了上面的流程就能發現:對爬蟲來說網站非常被動,只有老老實實被抓取的份 。
所以,對于網站的管理者來說,就存在這樣的需求:
某些路徑下是個人隱私或者網站管理使用,不想被搜索引擎抓取,比如說日本愛情動作片;
不喜歡某個搜索引擎,不愿意被他抓取,最有名的就是之前淘寶不希望被百度抓取;
小網站使用的是公用的虛擬主機,流量有限或者需要付費,希望搜索引擎抓的溫柔點;
某些網頁是動態生成的,沒有直接的鏈接指向,但是希望內容被搜索引擎抓取和索引 。
網站內容的所有者是網站管理員,搜索引擎應該尊重所有者的意愿,為了滿足以上等等,就需要提供一種網站和爬蟲進行溝通的途徑,給網站管理員表達自己意愿的機會 。有需求就有供應,robots協議就此誕生 。
京東的Robots協議
https://www.jd.com/robots.txt
百度的Robots協議
上面,*代表所有,/代表根目錄
既然網絡爬蟲在爬取一個網站之前,要先獲取到這個文件,然后解析到其中的規則,那么,Robots就必須要有一套通用的語法規則 。
最簡單的robots.txt只有兩條規則:
User-agent:指定對哪些爬蟲生效
Disallow:指定要屏蔽的網址
先說User-agent,爬蟲抓取時會聲明自己的身份,這就是User-agent,沒錯,就是http協議里的User-agent 。robots.txt利用User-agent來區分各個引擎的爬蟲,比如說google網頁搜索爬蟲的User-agent為Googlebot 。
可能有讀者要問了,我怎么知道爬蟲的User-agent是什么?你還可以查相關搜索引擎的資料得到官方的數據,比如說百度的爬蟲列表是這樣的:
Disallow 行列出的是要攔截的網頁,以正斜線 (/) 開頭,可以列出特定的網址或模式 。要屏蔽整個網站,使用正斜線即可;要屏蔽某一目錄以及其中的所有內容,在目錄名后添加正斜線;要屏蔽某個具體的網頁,就指出這個網頁 。
下面介紹一些實例:
或者也可以建一個空文件 "/robots.txt" file 。
我們再來結合兩個真實的范例來學習一下 。先看這個例子:
這個是淘寶網的Robots協議內容,相信你已經看出來了,淘寶網禁止百度的爬蟲訪問 。
再來看一個例子:
這個稍微復雜點,京東有2個目錄不希望所有的爬蟲來抓 。同時,京東完全屏蔽了一淘網的蜘蛛(EtaoSpider是一淘網的蜘蛛) 。
sitemap
爬蟲會通過網頁內部的鏈接發現新的網頁 。但是如果沒有鏈接指向的網頁怎么辦?或者用戶輸入條件生成的動態網頁怎么辦?能否讓網站管理員通知搜索引擎他們網站上有哪些可供抓取的網頁?這就是sitemap,最簡單的 Sitepmap 形式就是 XML 文件,在其中列出網站中的網址以及關于每個網址的其他數據(上次更新的時間、更改的頻率以及相對于網站上其他網址的重要程度等等),利用這些信息搜索引擎可以更加智能地抓取網站內容 。
新的問題來了,爬蟲怎么知道這個網站有沒有提供sitemap文件,或者說網站管理員生成了sitemap,(可能是多個文件),爬蟲怎么知道放在哪里呢?
由于robots.txt的位置是固定的,于是大家就想到了把sitemap的位置信息放在robots.txt里 。這就成為robots.txt里的新成員了 。
節選一段google robots.txt:
Sitemap: http://www.gstatic.com/cultur...
Sitemap: http://www.google.com/hostedn...
插一句,考慮到一個網站的網頁眾多,sitemap人工維護不太靠譜,google提供了工具可以自動生成sitemap 。
meta tag
其實嚴格來說這部分內容不屬于robots.txt 。
robots.txt的初衷是為了讓網站管理員管理可以出現在搜索引擎里的網站內容 。但是,即使使用 robots.txt文件讓爬蟲無法抓取這些內容,搜索引擎也可以通過其他方式找到這些網頁并將它添加到索引中 。例如,其他網站仍可能鏈接到該網站 。因此,網頁網址及其他公開的信息(如指向相關網站的鏈接中的定位文字或開放式目錄管理系統中的標題)有可能會出現在引擎的搜索結果中 。如果想徹底對搜索引擎隱身那咋整呢?答案是:元標記,即meta tag 。
比如要完全阻止一個網頁的內容列在搜索引擎索引中(即使有其他網站鏈接到此網頁),可使用 noindex 元標記 。只要搜索引擎查看該網頁,便會看到 noindex 元標記并阻止該網頁顯示在索引中,這里注意 noindex 元標記提供的是一種逐頁控制對網站的訪問的方式 。
要防止所有搜索引擎將網站中的網頁編入索引,在網頁的部分添加:
這里的name取值可以設置為某個搜索引擎的User-agent從而指定屏蔽某一個搜索引擎 。
除了noindex外,還有其他元標記,比如說nofollow,禁止爬蟲從此頁面中跟蹤鏈接 。詳細信息可以參考Google支持的元標記,這里提一句:noindex和nofollow在HTML4.01規范里有描述,但是其他tag的在不同引擎支持到什么程度各不相同,還請讀者自行查閱各個引擎的說明文檔 。
Crawl-delay
除了控制哪些可以抓哪些不能抓之外,robots.txt還可以用來控制爬蟲抓取的速率 。如何做到的呢?通過設置爬蟲在兩次抓取之間等待的秒數 。這種操作可以進行緩解服務器壓力 。
表示本次抓取后下一次抓取前需要等待5秒 。
注意 : google已經不支持這種方式了,在webmaster tools里提供了一個功能可以更直觀的控制抓取速率 。
這里插一句題外話,幾年前曾經有一段時間robots.txt還支持復雜的參數:Visit-time,只有在visit-time指定的時間段里,爬蟲才可以訪問;Request-rate:用來限制URL的讀取頻率,用于控制不同的時間段采用不同的抓取速率 。后來估計支持的人太少,就漸漸的廢掉了,目前google和baidu都已經不支持這個規則了,其他小的引擎公司貌似從來都沒有支持過 。
網絡爬蟲:
自動或人工識別robots.txt,再進行內容爬取
約束性:
Robots協議是建議但非約束性,網絡爬蟲可以不遵守,但存在法律風險 。
原則:類人行為可以不參考Robots協議 。
Robots協議不是什么技術壁壘,而只是一種互相尊重的協議,好比私家花園的門口掛著“閑人免進”,尊重者繞道而行,不尊重者依然可以推門而入 。目前,Robots協議在實際使用中,還存在一些問題 。
緩存
robots.txt本身也是需要被抓取的,出于效率考慮,一般爬蟲不會每次抓取網站網頁前都抓一下robots.txt,加上robots.txt更新不頻繁,內容需要解析 。通常爬蟲的做法是先抓取一次,解析后緩存下來,而且是相當長的時間 。假設網站管理員更新了robots.txt,修改了某些規則,但是對爬蟲來說并不會立刻生效,只有當爬蟲下次抓取robots.txt之后才能看到最新的內容 。尷尬的是,爬蟲下次抓取robots.txt的時間并不是由網站管理員控制的 。當然,有些搜索引擎提供了web工具可以讓網站管理員通知搜索引擎那個url發生了變化,建議重新抓取 。注意,此處是建議,即使你通知了搜索引擎,搜索引擎何時抓取仍然是不確定的,只是比完全不通知要好點 。至于好多少,那就看搜索引擎的良心和技術能力了 。
ignore
不知是無意還是有意,反正有些爬蟲不太遵守或者完全忽略robots.txt,不排除開發人員能力的問題,比如說根本不知道robots.txt 。另外,本身robots.txt不是一種強制措施,如果網站有數據需要保密,必需采取技術措施,比如說:用戶驗證,加密,ip攔截,訪問頻率控制等 。
惡意爬蟲
在互聯網世界中,每天都有不計其數的爬蟲在日夜不息地爬取數據,其中惡意爬蟲的數量甚至高于非惡意爬蟲 。遵守Robots協議的爬蟲才是好爬蟲,但是并不是每個爬蟲都會主動遵守Robots協議 。
惡意爬蟲可以帶來很多潛在威脅,比如電商網站的商品信息被爬取可能會被競爭對手利用,過多的爬蟲還會占用帶寬資源、甚至導致網站宕機 。
你學會了嗎~~~?
點個贊吧!!!
關于購物網站及網頁小游戲的robots協議
https://www.amazon.cn/robots.txt
不可爬取的頁面中可顯示的頁面包括:購物車,登錄,分類列表,個人賬戶頁面,購物歷史記錄,官方信息,首頁,心愿單,聯系客服,聯系我們,我的電子書,幫助 。
亞馬遜主要禁止抓取的內容是一些商業信息以及用戶的個人信息,如今信息泄露現象越發普遍,作為一個線上購物平臺保護用戶的隱私顯得尤為重要,這不僅是對用戶個人財產安全的保護,也是對用戶本身安全的保護 。不過,同時,亞馬遜也存在一些允許爬取的內容 。
https://www.taobao.com/robots.txt
現在,如果在百度里搜索淘寶網,會看到的結果是“由于該網站的robots.txt文件存在限制指令,系統無法提供該頁面的內容描述” 。事實上,百度和淘寶都試圖將中國網民培育出一種最符合自己利益用戶的習慣:就是盡量讓用戶用自己的搜索引擎完成消費選擇,如果自己能夠控制用戶端口,那么針對排名就可以做出多種付費推廣,而淘寶如果對百度蜘蛛開放robots.txt,作為中國最大的搜索引擎,百度很可能會針對淘寶開發出相應的開放平臺,蠶食淘寶的付費市場 。如果強勢品牌能夠打造獨立商城分流淘寶店鋪的流量,一是可以避免身家性命全押在淘寶上需要通過競價系統購買昂貴的首頁廣告(百度同理),二是可以加強品牌優勢,培養用戶主動搜索品牌的消費習慣 。
http://www.4399.com/robots.txt
不可爬取的頁面中可顯示的頁面包括:游戲列表,最新好玩小游戲列表,首頁,洛克王國,奧拉星,賽爾號,龍戰士,造夢西游3之大鬧天庭篇,爆槍英雄,勇士的信仰(正式版),造夢西游4洪荒大劫篇,奧比島,老版首頁 。
http://www.7k7k.com/robots.txt
不可爬取的頁面中可顯示的頁面包括:每日最新Flash游戲列表,游戲分類列表,游戲列表,游戲分類標簽列表,游戲排行榜,首頁 。
http://www.2144.cn/robots.txt
不可爬取的頁面中可顯示的頁面包括:女生游戲列表,首頁,老版首頁,三國戰紀,戰神盟,三國志,三國戰,游戲列表 。
大部分網頁小游戲網站都禁止爬取首頁,游戲列表,游戲分類列表以及部分小游戲網頁 。
購物網站大都將注意力放在用戶信息保護以及網站流量上面,網頁小游戲網站在關注網站流量的同時,也會著重保護團隊的創作成果 。
Robots協議是網站出于安全和隱私考慮,防止搜索引擎抓取敏感信息而設置的 。Robots協議代表了一種契約精神,互聯網企業只有遵守這一規則,才能保證網站及用戶的隱私數據不被侵犯 。Robots協議是維護互聯網世界隱私安全的重要規則,是一種目前為止最有效的方式,用自律維持著網站與搜索引擎之間的平衡,讓兩者之間的利益不至于過度傾斜 。
爬蟲究竟是合法還是違法的?
據說互聯網上 50%以上的流量都是爬蟲創造的,也許你看到很多熱門數據都是爬蟲所創造的,所以可以說無爬蟲就無互聯網的繁榮 。
前天寫了一篇文章《 只因寫了一段爬蟲,公司200多人被抓!》,講述程序員因寫爬蟲而被刑偵的事件 。文章傳播很廣,評論中討論最熱是: 爬蟲究竟是合法還是違法的?
這個話題涉及到我們很多程序員的日常工作,所以有必要和大家細聊一下 。
01.技術無罪?
在今年國家頒布 《中華人民共和國網絡安全法》 之后,很多以前處于灰色地帶的業務都不能做了 。
君不見之前曾經非常火的各種社工庫網站,現在絕大部分都已經消失匿跡了嗎?因為最新的安全法強調: 販賣個人信息超過50條屬于“情節嚴重”,需要追求其法律責任 。
很多草根站長都紛紛主動關閉了網站;還有很多涉及版權信息的網站,比如書籍、影視劇、課程等后期也會面臨越來越嚴格的審查,這就是目前大的形勢 。
2014年12月20日,人人影視字幕站發布微博稱,人人影視正式關閉,并表示或將繼續為正版商提供翻譯服務,也可能轉變為討論社區的形式 。
2019年6月,吾愛破解因版權問題關站整改...
.....
隨著中國經濟的不斷往前走,知識產權問題會越來越重視,非法爬蟲是現在一個重要的打擊部分,
如果有程序員走在灰色的邊緣盡早收手,不要因為一點小的收益導致觸犯法律,從而得不償失 。
技術是無罪的,但是用到了錯的地方代價也是非常巨大的 。
02.爬蟲崗位人人自危
我在拉鉤上搜索: 爬蟲工程師,顯示有 217 條相關招聘信息,薪資從10-60k 都有,說明市場上對爬蟲的需求是很大的 。
簡單回答一下這些問題:
還有朋友認為這事責任在企業不在程序員,日常工作中項目初期設計和最后上線需要通過公司的法務批準,所有代碼必須有其他程序員同事評審通過才能提交 。
這位朋友說的挺對的,按道理每個公司都應該有法務和風控在前面,后面才是產品設計和程序員開發的事情,但如果一家公司為了利益,老板可以直接讓這兩個部門閉嘴,后面程序員可以不干嗎?
更甚至很多公司其實就沒有這兩個部門或者說形同虛設 。那么做為程序員自己也需要操一份心,凡是涉及到入侵類的程序都不能干,因為有一個東西叫做: 單位犯罪。
單位犯罪 ,是指公司、企業、事業單位、機關、團體為單位謀取利益,經單位決策機構或者負責人決定實施的,法律規定應當負刑事責任的危害 社會 的行為 。
我國刑法對單位犯罪原則上采取 雙罰制度 ,即單位犯罪的,對單位判處罰金,并 對其直接負責的主管人員和其他直接責任人員判處刑罰 。
03.什么樣的爬蟲是非法的?
爬蟲不能涉及個人隱私!
如果爬蟲程序采集到 公民的姓名、身份證件號碼、通信通訊聯系方式、住址、賬號密碼、財產狀況、行蹤軌跡等個人信息 ,并將之用于非法途徑的,則肯定構成非法獲取公民個人信息的違法行為 。
也就是說你爬蟲爬取信息沒有問題,但不能涉及到個人的隱私問題,如果涉及了并且通過非法途徑收益了,那肯定是違法行為 。
另外,還有下列 三種情況 ,爬蟲有可能違法,嚴重的甚至構成犯罪:
現在網上有很多付費的課程,比如極客時間、Gitchat、慕課網、知識星球等等,這些付費內部信息如果被非法爬取手法出售獲利,一種違法行為 。
之前我就遇到一個網友,把各個知識星球的內容都抓下來,合到一起自己去賣,自作聰明覺得發現了一個大的商機,其實自己不知道這個行為其實很危險,風險和收益明顯不對等 。
我這兩天看的時候,他的一個公眾號都被封了,后來又轉移了一個小號繼續搞,遲早又是被封的命運,真的很不值當 。最可憐是那些買他服務的用戶,因為他宣傳時承諾永久,肯定永久不了 。
04.什么樣的爬蟲是合法的?
1、 遵守 Robots 協議
Robots 協議也叫 robots.txt(統一小寫)是一種存放于網站根目錄下的 ASCII 編碼的文本文件,它通常告訴網絡搜索引擎的漫游器(又稱網絡蜘蛛),此網站中的哪些內容是不應被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的 。
Robots 協議就是告訴爬蟲,哪些信息是可以爬取,哪些信息不能被爬取,嚴格按照 Robots 協議 爬取網站相關信息一般不會出現太大問題 。
2、不能造成對方服務器癱瘓
但不是說只要遵守 Robots 協議的爬蟲就沒有問題,還涉及到兩個因素,第一不能大規模爬蟲導致對方服務器癱瘓,這等于網絡攻擊 。
2019年05月28日國家網信辦發布的《數據安全管理辦法(征求意見稿)》中,擬通過行政法規的形式,對爬蟲的使用進行限制:
網絡運營者采取自動化手段訪問收集網站數據,不得妨礙網站正常運行;此類行為嚴重影響網站運行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止 。
3、不能非法獲利
惡意利用爬蟲技術抓取數據,攫取不正當競爭的優勢,甚至是牟取不法利益的,則可能觸犯法律 。實踐中,非法使用爬蟲技術抓取數據而產生的糾紛其實數量并不少,大多是以不正當競爭為由提請訴訟 。
舉個例子,如果你把大眾點評上的所有公開信息都抓取了下來,自己復制了一個一模一樣的網站,并且還通過這個網站獲取了大量的利潤,這樣也是有問題的 。
一般情況下,爬蟲都是為了企業獲利的,因此需要爬蟲開發者的道德自持和企業經營者的良知才是避免觸碰法律底線的根本所在 。
05.最后
有風險的行業謹慎進入,比如現金貸、不合規的P2P、賭博類 游戲 、黑五類產品的行業 。如果公司安排入侵某個網站數據,或者有同事/朋友邀請泄露公司信息的都需要保持警惕,有時候一個很小的動作都有可能導致出問題 。
我們絕大多數公司和個人使用的爬蟲都是沒有問題的,不必人人自危,只要把握住不要爬取個人信息,不要利用爬蟲非法獲利,不要爬取網站的付費內容,基本上不會有問題 。
程序員是世界上最單純的一批人,也是一批高智商低情商的人,工作是工作但也需要適當保持謹慎,對于一些游走在法律邊緣的事情請保持距離 。
敬畏法律,遵紀守法,從我做起 。
參考:https://www.zhihu.com/question/291554395
作者: 純潔的微笑.出處:www.ityouknow.com

瀏覽器需要遵守Robots協議嗎
瀏覽器需要遵守Robots協議 。
協議簡單理解可以理解成大家共同遵守的一個標準,只要是網頁瀏覽器肯定需要支持最常見的協議,一些不常用的就看各瀏覽器是否支持了 。
Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(RobotsExclusionProtocol) 。
Python爬蟲必須遵守robots協議,否則等于犯罪
1、robots協議是一種存放于網站根目錄下的ASCII編碼的文本文件 。用于對外宣誓主權,規定按照允許范疇訪問網站,有效保護網站的隱私 。所以您想通過技術手段訪問網站的時候,請首先查看robots.txt文件,它告訴你哪些可以訪問,哪些信息是不允許訪問的 。(Robots協議是國際互聯網界通行的道德規范)
2、robots主要涉及以下三個部分:
第一種:禁止所有搜索引擎訪問網站的任何內容
User-agent: *
Disallow: /
第二種:禁止某個特定的搜索引擎訪問網站的任何內容
User-agent: Baiduspider
Disallow: /
第三種:允許所有搜索引擎訪問網站的任何內容
User-agent: *
Allow: /
第四種:禁止部分內容被訪問(tmp目錄及下面的內容都禁止了)
User-agent: *
Disallow: /tmp
第五種:允許某個搜索引擎的訪問
User-agent: Baiduspider
allow:/
第六種:部分允許,部分不允許訪問
User-agent: Baiduspider
Disallow: /tmp/bin
User-agent:*
allow:/tmp
希望以上總結對您有幫助!!!!!
亞馬遜網站robots協議解讀
在分析亞馬遜的robots協議之前我們先應該明確的是網絡爬蟲會帶來的風險和問題,這樣才能更好的理解亞馬遜為什么禁止網絡爬蟲訪問這些內容,如果訪問的話會造成什么危害 。
最簡單的robots.txt只有兩個規則:
User-agent:指定對哪些爬蟲生效
Disallow:指定要屏蔽的網址
接下來以亞馬遜的robots協議為例,分析其內容 。
【關于購物網站及網頁小游戲的robots協議 robots協議怎么看】 首先,先來分析亞馬遜對于網絡爬蟲的限制 。是否有有“特殊權限”的爬蟲?
爬蟲抓取時會聲明自己的身份,這就是User-agent,就是http協議里的User-agent 。robots.txt利用User-agent來區分各個引擎的爬蟲 。
*代表該內容下面Disallow的部分是禁止所有爬蟲爬取的 。因此robots協議中提及的“禁區”是針對于所有網絡爬蟲的,沒有單獨提及的爬蟲 。
與之對應來看,我們會發現淘寶的robots協議中明確禁止百度的網絡爬蟲爬取 。而百度的一些網站是允許百度爬蟲任意爬取的 。
接下來分析亞馬遜向網絡爬蟲屏蔽的內容有哪些 。
Disallow 行列出的是要攔截的網頁,以正斜線 (/) 開頭,可以列出特定的網址或模式 。要屏蔽整個網站,使用正斜線即可;要屏蔽某一目錄以及其中的所有內容,在目錄名后添加正斜線;要屏蔽某個具體的網頁,就指出這個網頁 。
下面代表wishlist中允許訪問的目錄universal*、 vendor-button* 、get-button*
仔細觀察禁止訪問,發現了一些“看得懂”的內容:
其中禁止了網絡爬蟲模仿用戶的行為進行諸如給商品評分、發送電子郵件、分享到twitter的行為,這是十分合理的 。試想若是不禁止網絡爬蟲模仿用戶的行為,不僅可能會給網站的性能造成影響,可能會出現爬蟲造成的惡意評分,以亞馬遜名義發送內容無法保證的郵件的事件的發生 。這樣的行為會對亞馬遜的交易環境和形象產生影響 。
同時禁止爬蟲訪問歷史、物流信息的請求可以避免用戶的交易信息泄露造成麻煩 。
下面禁止訪問的內容諸如登陸、退出賬戶,身份,訂單地址、詳細信息、歷史、修改、記錄,推薦瀏覽,瀏覽量,選擇支付方式,選擇物流,物流查詢,購物車等 。
其中的很多禁止爬取的都是已登錄的賬戶才可以訪問的內容,若是不禁止網絡爬蟲進行訪問,則可能會出現網絡爬蟲模擬用戶操作進行操作的現象發生,造成用戶隱私泄露 。
禁止爬蟲爬取瀏覽量,瀏覽內容,推薦瀏覽等內容是亞馬遜防止信息被爬取后被挪作他用牟利,比如“復制網站”的情況發生 。
關于robots協議和robots協議怎么看的內容就分享到這兒!更多實用知識經驗,盡在 m.apearl.cn