創(chuàng)新的沈陽網(wǎng)站建設(shè)百度指數(shù)的功能
1.1 爬蟲的一些知識(大模型提供語料)
網(wǎng)頁資源:
資源組織方式:列表分頁,搜索引擎,推薦
發(fā)送請求的文檔類型:html ,js
響應(yīng)請求的文檔類型:html,js,json
請求方式:同步和異步
頁面形式:單頁面,非單頁面;
抓取流程:requests直接請求
? ? ? ? # 抓取入口(窮舉或者探索方式)
? ? ? ? # 遍歷
? ? ? ? # 解析&清洗
? ? ? ? # 入庫
? ? ? ? # 遍歷結(jié)束
需要關(guān)注的點:
內(nèi)容反爬:抓取內(nèi)容投毒、混淆等反抓取;
請求反爬:返回403等,或者跳轉(zhuǎn)或者返回到一個人工校驗頁面;
資源覆蓋率:窮舉所有要抓取的資源;
增量抓取:如何保證更新能跟上;
抓取速率要友好;
關(guān)于反爬策略:
加上header;
不使用requests;
加上IP代理池;
關(guān)于模擬抓取:
重量級:selenium
輕量級:其他;
解析:bs4和xpath
一個是擅長篩選器,一個擅長路徑定位;
清洗:
內(nèi)容部分亂碼、(硬)斷行。
后續(xù)繼續(xù)補充。。。