網(wǎng)站流量高iis如何做負(fù)載均衡搜狗競(jìng)價(jià)
代理IP如何選以及常見(jiàn)反爬策略
為什么需要代理?
因?yàn)橛械木W(wǎng)站會(huì)封IP,用戶(hù)如果沒(méi)有登錄,那IP就是身份標(biāo)識(shí),如果網(wǎng)站發(fā)現(xiàn)用戶(hù)行為異常就非常可能封IP
什么是代理IP
就是讓一個(gè)人幫你轉(zhuǎn)交請(qǐng)求,幫你轉(zhuǎn)交的人對(duì)面不熟,也就難以發(fā)現(xiàn)頻繁請(qǐng)求的是你
但是要注意我們只能使用高匿代理,透明代理(轉(zhuǎn)交請(qǐng)求同時(shí)告訴是幫誰(shuí)轉(zhuǎn)交的)什么的是不能用的
如何衡量代理
速度:加代理之后3秒鐘能相應(yīng)是優(yōu)秀,5秒鐘之內(nèi)能相應(yīng)是能用的
安全:用來(lái)路不明的代理有信息安全風(fēng)險(xiǎn)
價(jià)格:性?xún)r(jià)比需要考慮
請(qǐng)求間隔:有的接口有請(qǐng)求間隔限制,尤其是按時(shí)收費(fèi)的這種,也要考慮
穩(wěn)定性:失效時(shí)間人為設(shè)置有長(zhǎng)時(shí)間的和短時(shí)間的,短的1到3分鐘,長(zhǎng)的幾天的都有,越長(zhǎng)的越貴,我們用短的就行
比較常用的有芝麻代理,小象代理,快代理,站大爺?shù)鹊?/p>
爬蟲(chóng)選擇哪種代理
- 高匿代理:需要代理IP池,否則太費(fèi)代理,太燒錢(qián)
- 隧道代理
- 短效版
- 動(dòng)態(tài)版:以IP生成cookie登錄抓取數(shù)據(jù) 不能滿(mǎn)足(IP存活時(shí)間短)
- 代理客戶(hù)端:貴,但平均每隔代理幾秒一換,比較快
- 優(yōu)點(diǎn):
- 時(shí)間恰當(dāng),以IP生成cookie登錄抓取數(shù)據(jù) 也能滿(mǎn)足
- 優(yōu)點(diǎn):
反爬策略
-
封禁IP類(lèi)
-
閾值:
- 打比方,一分鐘60次,第一次封禁2分鐘,然后策略改為一分鐘45次
- 打比方,一分鐘60次,第二天訪(fǎng)問(wèn)同樣的內(nèi)容,則策略改為一分鐘45次(增量爬蟲(chóng),需每天爬取進(jìn)行數(shù)據(jù)更新)
總結(jié):所以有的代理IP可以復(fù)活,代理IP池很有必要(后續(xù)會(huì)發(fā)布)
-
-
蜜罐陷阱:網(wǎng)頁(yè)有正常用戶(hù)不可訪(fǎng)問(wèn)的鏈接,爬蟲(chóng)獲取并訪(fǎng)問(wèn)此鏈接將進(jìn)入無(wú)限循環(huán),直到程序崩潰
-
token加密驗(yàn)簽
-
檢測(cè)環(huán)境變量:selenium可以檢測(cè)環(huán)境變量,requests訪(fǎng)問(wèn)同樣也可以檢測(cè)環(huán)境變量
爬蟲(chóng)策略
- 程序模擬抓
- 可能涉及的問(wèn)題
- token加密驗(yàn)簽
- 封禁IP
- 檢測(cè)環(huán)境變量(不常見(jiàn))
- 蜜罐陷阱(不常見(jiàn))
- 可能涉及的問(wèn)題
- selenium抓
- 可能涉及的問(wèn)題
- 封禁IP
- 檢測(cè)環(huán)境變量(可以消除指紋)
- 可能涉及的問(wèn)題
- selenium被未知手段封禁,山窮水盡:ODR識(shí)別(windows鼠標(biāo)模擬操作、windows鼠標(biāo)模擬切換IP、windows鼠標(biāo)模擬訪(fǎng)問(wèn)數(shù)據(jù)截圖、ODR識(shí)別獲取數(shù)據(jù))
- 弊端:
- ODR識(shí)別不準(zhǔn),需要進(jìn)行模型訓(xùn)練
- 慢,識(shí)別七八秒鐘
- 適用場(chǎng)景:
- 適用于只用獲取一次數(shù)據(jù)的項(xiàng)目,不適合增量爬蟲(chóng)
- 弊端:
爬蟲(chóng)注意
- 不要過(guò)于追求爬取速度,速度過(guò)快對(duì)網(wǎng)站有影響,網(wǎng)站的反爬措施就會(huì)更新,對(duì)自己沒(méi)有好處,因?yàn)樵隽颗老x(chóng)(項(xiàng)目需要維護(hù)),不要多進(jìn)程加協(xié)程,一般多進(jìn)程或者協(xié)程即可