有網(wǎng)站地圖的網(wǎng)站怎樣淘寶seo排名優(yōu)化

一、項(xiàng)目背景
在素材網(wǎng)想找到合適圖片需要一頁(yè)一頁(yè)往下翻,現(xiàn)在學(xué)會(huì)python就可以用程序把所有圖片保存下來(lái),慢慢挑選合適的圖片。
二、項(xiàng)目目標(biāo)
1、根據(jù)給定的網(wǎng)址獲取網(wǎng)頁(yè)源代碼。
2、利用正則表達(dá)式把源代碼中的圖片地址過(guò)濾出來(lái)。
3、過(guò)濾出來(lái)的圖片地址下載素材圖片。
三、涉及的庫(kù)和網(wǎng)站
1、網(wǎng)址如下:
https://www.51miz.com/
2、涉及的庫(kù):requests、lxml
四、項(xiàng)目分析
首先需要解決如何對(duì)下一頁(yè)的網(wǎng)址進(jìn)行請(qǐng)求的問(wèn)題??梢渣c(diǎn)擊下一頁(yè)的按鈕,觀察到網(wǎng)站的變化分別如下所示:
https://www.51miz.com/so-sucai/1789243.html
https://www.51miz.com/so-sucai/1789243/p_2/
https://www.51miz.com/so-sucai/1789243/p_3/
我們可以發(fā)現(xiàn)圖片頁(yè)數(shù)是1789243/p{},p{}花括號(hào)數(shù)字表示圖片哪一頁(yè)。
五、項(xiàng)目實(shí)施
1、打開(kāi)覓知網(wǎng),在搜索中輸入你想要的圖片素材(以鼠年素材圖片為例)。

2、根據(jù)上一步對(duì)網(wǎng)址的分析,首先我們定義一個(gè)類叫做ImageSpider,類里面定義初始化函數(shù)、發(fā)送請(qǐng)求獲取響應(yīng)數(shù)據(jù)函數(shù)、解析函數(shù)、主函數(shù)。首先初始化函數(shù),準(zhǔn)備url地址和headers,代碼如下圖所示。

3、發(fā)送請(qǐng)求獲取響應(yīng)數(shù)據(jù)函數(shù)。

4、解析數(shù)據(jù),使用xpath獲取二級(jí)頁(yè)面鏈接,最后把圖片存儲(chǔ)在文件夾中。使用谷歌瀏覽器選擇開(kāi)發(fā)者工具或直接按F12,發(fā)現(xiàn)我們需要的圖片src是在img標(biāo)簽下的,于是用Python的requests提取該組件。


5、主函數(shù),代碼如下圖所示。

六、效果展示
1、運(yùn)行程序,在控制臺(tái)輸入你要爬取的頁(yè)數(shù),如下圖所示。

2、在本地可以看到效果圖,如下圖所示。

最后總結(jié):
1、不建議抓取太多數(shù)據(jù),容易對(duì)服務(wù)器造成負(fù)載,淺嘗輒止即可。
2、希望通過(guò)這個(gè)項(xiàng)目,能夠幫助大家下載到素材圖片。
3、本文基于Python網(wǎng)絡(luò)爬蟲(chóng),利用爬蟲(chóng)庫(kù),實(shí)現(xiàn)素材圖片的獲取。實(shí)現(xiàn)的時(shí)候,總會(huì)有各種各樣的問(wèn)題,切勿眼高手低,勤動(dòng)手,才可以理解的更加深刻。
4、歡迎大家點(diǎn)贊,留言,轉(zhuǎn)發(fā),感謝大家的相伴與支持,需要本文源碼可以關(guān)注公眾號(hào):【編程語(yǔ)言之家】有驚喜哦!
往期精彩文章:
30段極簡(jiǎn)Python代碼,測(cè)試自己有沒(méi)有學(xué)Python的天賦?mp.weixin.qq.com