中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

企業(yè)網(wǎng)站建站寧波seo公司

企業(yè)網(wǎng)站建站,寧波seo公司,北京市中小企業(yè)公共服務(wù)平臺(tái),中國(guó)裝修網(wǎng)官網(wǎng)功能相對(duì)單一,只針對(duì)特定網(wǎng)站的特定內(nèi)容進(jìn)行爬取,比如說(shuō)去某個(gè)網(wǎng)站批量獲取某些數(shù)據(jù),這也是我們個(gè)人最常用的一種爬蟲了。 ③增量式爬蟲(只采集更新后的內(nèi)容) 這其實(shí)是聚焦爬蟲的一個(gè)迭代爬蟲,它只采集更…

功能相對(duì)單一,只針對(duì)特定網(wǎng)站的特定內(nèi)容進(jìn)行爬取,比如說(shuō)去某個(gè)網(wǎng)站批量獲取某些數(shù)據(jù),這也是我們個(gè)人最常用的一種爬蟲了。

③增量式爬蟲(只采集更新后的內(nèi)容)

這其實(shí)是聚焦爬蟲的一個(gè)迭代爬蟲,它只采集更新后的數(shù)據(jù),對(duì)老數(shù)據(jù)是不采集,相當(dāng)于一直存在并運(yùn)行,只要有符合要求的數(shù)據(jù)更新了,就會(huì)自動(dòng)爬取新的數(shù)據(jù)。

在這里插入圖片描述


3.Robots協(xié)議

在爬蟲中有一個(gè)叫Robots協(xié)議需要注意一下,又稱為“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”,它的作用就是網(wǎng)站告訴你哪些東西能爬,哪些不能爬。

這個(gè)Robots協(xié)議去哪看?一般情況下直接在網(wǎng)站首頁(yè)網(wǎng)址后面加/robots.txt就能查看,比如百度的Robots協(xié)議就在https://www.baidu.com/robots.txt ,可以看到里面有很多網(wǎng)址都規(guī)定了不能爬,比如Disallow:/shifen/ 說(shuō)明當(dāng)前Disallow:/shifen以及Disallow:/shifen下面的子目錄網(wǎng)頁(yè)均不能爬。

在這里插入圖片描述

其實(shí)這個(gè)Robots協(xié)議屬于一個(gè)君子協(xié)議,對(duì)于爬蟲者來(lái)說(shuō),基本上就是口頭協(xié)議,你違反了它你有可能會(huì)被追究法律責(zé)任,但不違反它,爬蟲將是爬不到什么數(shù)據(jù),所以平時(shí)雙方都是睜一只閉一眼,不要太囂張就可以了。

在這里插入圖片描述

粉絲專屬福利,站內(nèi)跳轉(zhuǎn)


二、爬蟲的基本流程


1.爬蟲的4步

爬蟲是怎么干活的?爬蟲程序大致上可以分為四步走:

①發(fā)起請(qǐng)求

通過(guò)HTTP庫(kù)向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求,即發(fā)送一個(gè)Request,請(qǐng)求可以包含額外的headers等信息,等待服務(wù)器響應(yīng)。

②獲取響應(yīng)內(nèi)容

如果服務(wù)器能正常響應(yīng),會(huì)得到一個(gè)Response,Response的內(nèi)容便是所要獲取的頁(yè)面內(nèi)容,類型可能有HTML、Json字符串和二進(jìn)制數(shù)據(jù)(如圖片視頻)等類型。

③解析內(nèi)容

得到的內(nèi)容可能是HTML,可以用正則表達(dá)式、網(wǎng)頁(yè)解析庫(kù)進(jìn)行解析??赡苁荍son,可以直接轉(zhuǎn)為Json對(duì)象解析,可能是二進(jìn)制數(shù)據(jù),可以做保存或者進(jìn)一步的處理。

④保存數(shù)據(jù)

保存的數(shù)據(jù)樣式很多,可以保存為文本,也可以保存至數(shù)據(jù)庫(kù),或者保存為特定格式的文件。

基本上這就是爬蟲要遵循的四步了。


2.Request和Response

Request和Response是爬蟲中最重要的一部分,Request和Response是什么關(guān)系?它們兩的關(guān)系如下圖:

在這里插入圖片描述

簡(jiǎn)單理解一下,當(dāng)我們?cè)陔娔X的瀏覽器上搜索某個(gè)東西的時(shí)候,比如前面的所說(shuō)的在百度搜索“Python”,你點(diǎn)擊百度一下,就已經(jīng)向百度的服務(wù)器發(fā)送了一個(gè)Request請(qǐng)求,Request包含了很多的信息,比如身份信息、請(qǐng)求信息等等,服務(wù)器接收請(qǐng)求之后做判斷,然后返回一個(gè)Response給我們的電腦,這其中也包含了很多信息,比如請(qǐng)求成功與否,比如我們請(qǐng)求的信息結(jié)果(文字、圖片和視頻等等)。

這樣講應(yīng)該很好理解吧?接下來(lái)我們?cè)俸煤萌タ匆幌翿equest和Response。


三、了解Request


Request包含了哪些東西?它主要包含了以下一些東西:

1.請(qǐng)求方式

請(qǐng)求方式可以理解為你跟網(wǎng)站打招呼的方式,你要從網(wǎng)站拿到數(shù)據(jù),你就得用正確的方式去跟它打招呼,它才有可能理你,就好比你要?jiǎng)e人家借個(gè)東西,你得先敲門再說(shuō)你好,你直接爬窗戶進(jìn)去這誰(shuí)瞧見(jiàn)了都得給你攆出去。

在這里插入圖片描述

主要的請(qǐng)求方式有GET和POST,另外還有HEAD/PUT/DELETE/OPTIONS等等其他方式,其中最常用的還是GET這種請(qǐng)求方式


2.請(qǐng)求URL

什么是URL?URL全稱統(tǒng)一資源定位符,比如一個(gè)網(wǎng)頁(yè)文檔、圖片、視頻等等都有唯一的URL,在爬蟲中我們可以理解為網(wǎng)址或者鏈接。


3.請(qǐng)求頭

什么是請(qǐng)求頭?英文名Request Headers,通常是指請(qǐng)求時(shí)包含的頭部信息,比如User-Agent、Host、Cookies等等。

這些東西它相當(dāng)于你向網(wǎng)站發(fā)送請(qǐng)求時(shí)你的身份信息,這里面經(jīng)常需要偽裝一下自己,偽裝成普通用戶,避免你的目標(biāo)網(wǎng)站識(shí)別出來(lái)你是爬蟲程序,規(guī)避一些反扒問(wèn)題,順利拿到數(shù)據(jù)。


4.請(qǐng)求體

官方一點(diǎn)的說(shuō)辭就是請(qǐng)求時(shí)額外攜帶的數(shù)據(jù),如表單提交時(shí)的表單數(shù)據(jù)。

怎么理解?就比如說(shuō)你去你岳父家提親,你不能空著手過(guò)去提親對(duì)吧?你得帶點(diǎn)東西才像個(gè)提親的樣子,你岳父才會(huì)把女兒許配給你,這是大家通用的禮數(shù),少不了的。

在這里插入圖片描述

在爬蟲當(dāng)中怎么理解?比如說(shuō)在某些頁(yè)面你得先登錄了或者你得告訴我你請(qǐng)求什么,比如說(shuō)你在百度這個(gè)網(wǎng)頁(yè)中搜索“Python”,那么這個(gè)“Python”這個(gè)關(guān)鍵字就是你要攜帶的請(qǐng)求體,看到了你的請(qǐng)求體,百度才知道你要干什么。

當(dāng)然了,請(qǐng)求體通常是用在POST這種請(qǐng)求方式里面,在GET請(qǐng)求時(shí)我們通常是拼接在URL里面,這里先理解一下就可以了,后續(xù)具體爬蟲可以去加深理解。


5.實(shí)操查看Request

既然Request的理論我們已經(jīng)講過(guò)了,那么我們就可以去實(shí)操看一下Request具體在哪個(gè)位置以及包含哪些東西。

以谷歌瀏覽器Chrome為例,我輸入關(guān)鍵字“Python”可以搜索出一堆結(jié)果,我們來(lái)用網(wǎng)頁(yè)自帶的控制臺(tái)窗口來(lái)分析一下我們發(fā)出的Request請(qǐng)求。

按住F12或者在網(wǎng)頁(yè)空白處右鍵選擇“檢查”,然后可以看到控制臺(tái)里面有很多選擇,比如說(shuō)上面那一欄有一個(gè)菜單欄,初級(jí)爬蟲一般我們就比較常用到的是Elements(元素)和Network(網(wǎng)絡(luò)),其他的東西暫時(shí)用不到,等你學(xué)到了高級(jí)一點(diǎn)的爬蟲就會(huì)用到了,比如JS逆向的時(shí)候可能會(huì)用到Application這個(gè)窗口,后面用到了再了解。

Elements包含了所有的請(qǐng)求結(jié)果的每一個(gè)元素,比如每一個(gè)圖片的源代碼都是有的,尤其是當(dāng)你點(diǎn)了左上角的小箭頭之后,你移動(dòng)到的每一個(gè)地方在Elements窗口下都會(huì)顯示對(duì)于的源代碼。

在這里插入圖片描述

Network就是爬蟲常用到的網(wǎng)絡(luò)信息,其中就有我們的Request,我們來(lái)看一下,在Network窗口下,勾選Disable cache(禁用緩存),并把All點(diǎn)上。

在這里插入圖片描述

刷新一下網(wǎng)頁(yè)看看效果,可以看出我們發(fā)出了132個(gè)Request請(qǐng)求,這個(gè)不用好奇,雖然我們只是向百度發(fā)出了“Python”這么一個(gè)請(qǐng)求,但有些是網(wǎng)頁(yè)附帶的請(qǐng)求。

在這里插入圖片描述

雖然里面有很多類型,什么圖片格式的png啊jpeg等等,但是你可以滑動(dòng)到最上面,在Type(類型)那一列中有document這種類型,就是網(wǎng)頁(yè)文檔的意思,點(diǎn)擊進(jìn)去就有我們的Request信息。

在這里插入圖片描述

點(diǎn)擊document進(jìn)去之后,又有一欄新的菜單欄,在Headers那一欄下面,我們可以看到 Request URL,也就是我們前面說(shuō)的請(qǐng)求URL,這個(gè)URL才是我們真正向網(wǎng)頁(yè)請(qǐng)求的URL,然后還有請(qǐng)求方式,可以看出來(lái)是GET請(qǐng)求這種方式。

在這里插入圖片描述

往下再滑動(dòng)一下,還可以看到我們前面講的請(qǐng)求頭 Request Headers ,信息很多,但我們前面講的User-Agent、Host、Cookies都是有的,這些都是我們給服務(wù)器的信息。

在這里插入圖片描述

Request Headers里面內(nèi)容雖然多,我們?cè)趯懪老x程序的時(shí)候也是要在這方面做偽裝工作,但并不是所有的信息我們都要寫,選擇性地寫一些重要的信息就可以了,比如User-Agent必帶,Referer和Host是選擇性地帶,cookie在要登錄的情況下會(huì)帶,常用的也就4項(xiàng)要做偽裝。

至于請(qǐng)求體這里我就暫時(shí)不做查看了,因?yàn)槲覀冞@里的請(qǐng)求方式是GET請(qǐng)求,在POST請(qǐng)求中才能查看到請(qǐng)求體,沒(méi)關(guān)系,爬蟲用到了你自然就會(huì)明白的。


四、了解Response


Response主要包括3塊內(nèi)容,我們來(lái)一一了解一下。

1.響應(yīng)狀態(tài)

我們發(fā)送請(qǐng)求之后,網(wǎng)站會(huì)返回給我們一個(gè)Response,這其中就包括了響應(yīng)狀態(tài)碼對(duì)于的響應(yīng)狀態(tài),大致可以分為以下幾種:

①兩百范圍,比如響應(yīng)狀態(tài)碼200則表示成功。

②三百范圍,比如301表示跳轉(zhuǎn)。

③四百范圍,比如404找不到網(wǎng)頁(yè)。

④五百范圍,比如502找不到網(wǎng)頁(yè)。

對(duì)于爬蟲來(lái)說(shuō),兩三百則是我們最希望看到的響應(yīng)狀態(tài),有可能會(huì)拿到數(shù)據(jù),四五百基本上就涼了,拿不到數(shù)據(jù)的

比如我們剛在在前面的Request請(qǐng)求發(fā)送時(shí),在document文件中,在Headers窗口下的General里面可以看出響應(yīng)狀態(tài)碼是200,說(shuō)明網(wǎng)頁(yè)成功響應(yīng)了我們的請(qǐng)求。

在這里插入圖片描述


2.響應(yīng)頭

服務(wù)器給我們的信息里面也會(huì)有響應(yīng)頭這一部分,這里面包含了內(nèi)容類型、內(nèi)容長(zhǎng)度、服務(wù)器信息和設(shè)置Cookie等等。

其實(shí)響應(yīng)頭對(duì)我們來(lái)說(shuō)并不是那么重要,這里了解一下就可以了。


3.響應(yīng)體

這個(gè)就很重要了,除了前面第一點(diǎn)的響應(yīng)狀態(tài),就是它了,因?yàn)樗苏?qǐng)求資源的內(nèi)容,比如網(wǎng)頁(yè)HTML和圖片二進(jìn)制數(shù)等等。

響應(yīng)體在哪里呢?也是在document文件里面的Response那一欄,可以往下滑動(dòng)就可以看出里面有很多響應(yīng)的數(shù)據(jù),這就是我們獲取到的數(shù)據(jù),有的是可以直接下載的,有的則是需要用技術(shù)去解析才能拿到。

在這里插入圖片描述


五、爬蟲能獲取到什么樣的數(shù)據(jù)?


爬蟲能獲取到什么樣的數(shù)據(jù)?基本上可以分為這么幾類:

①網(wǎng)頁(yè)文檔,如果HTML文檔、Json格式文本等。

自我介紹一下,小編13年上海交大畢業(yè),曾經(jīng)在小公司待過(guò),也去過(guò)華為、OPPO等大廠,18年進(jìn)入阿里一直到現(xiàn)在。

深知大多數(shù)Python工程師,想要提升技能,往往是自己摸索成長(zhǎng)或者是報(bào)班學(xué)習(xí),但對(duì)于培訓(xùn)機(jī)構(gòu)動(dòng)則幾千的學(xué)費(fèi),著實(shí)壓力不小。自己不成體系的自學(xué)效果低效又漫長(zhǎng),而且極易碰到天花板技術(shù)停滯不前!

因此收集整理了一份《2024年P(guān)ython開(kāi)發(fā)全套學(xué)習(xí)資料》,初衷也很簡(jiǎn)單,就是希望能夠幫助到想自學(xué)提升又不知道該從何學(xué)起的朋友,同時(shí)減輕大家的負(fù)擔(dān)。

img

img

img

img

img

img

既有適合小白學(xué)習(xí)的零基礎(chǔ)資料,也有適合3年以上經(jīng)驗(yàn)的小伙伴深入學(xué)習(xí)提升的進(jìn)階課程,基本涵蓋了95%以上前端開(kāi)發(fā)知識(shí)點(diǎn),真正體系化!

由于文件比較大,這里只是將部分目錄大綱截圖出來(lái),每個(gè)節(jié)點(diǎn)里面都包含大廠面經(jīng)、學(xué)習(xí)筆記、源碼講義、實(shí)戰(zhàn)項(xiàng)目、講解視頻,并且后續(xù)會(huì)持續(xù)更新

如果你覺(jué)得這些內(nèi)容對(duì)你有幫助,可以掃碼獲取!!!(備注Python)

71c1fb70aad5355a2c5eeff0.png)

img

img

既有適合小白學(xué)習(xí)的零基礎(chǔ)資料,也有適合3年以上經(jīng)驗(yàn)的小伙伴深入學(xué)習(xí)提升的進(jìn)階課程,基本涵蓋了95%以上前端開(kāi)發(fā)知識(shí)點(diǎn),真正體系化!

由于文件比較大,這里只是將部分目錄大綱截圖出來(lái),每個(gè)節(jié)點(diǎn)里面都包含大廠面經(jīng)、學(xué)習(xí)筆記、源碼講義、實(shí)戰(zhàn)項(xiàng)目、講解視頻,并且后續(xù)會(huì)持續(xù)更新

如果你覺(jué)得這些內(nèi)容對(duì)你有幫助,可以掃碼獲取!!!(備注Python)

img
http://www.risenshineclean.com/news/53610.html

相關(guān)文章:

  • 做蛋糕招聘網(wǎng)站域名申請(qǐng)
  • 響應(yīng)式網(wǎng)站建設(shè)平臺(tái)鄭州網(wǎng)絡(luò)推廣平臺(tái)
  • 建設(shè)網(wǎng)站的技術(shù)手段優(yōu)化大師有必要花錢嗎
  • 做裝修的業(yè)務(wù)網(wǎng)站網(wǎng)絡(luò)營(yíng)銷常用的工具有哪些
  • 香港特別行政區(qū)成品網(wǎng)站源碼的優(yōu)化技巧
  • vr網(wǎng)站開(kāi)發(fā)免費(fèi)大數(shù)據(jù)查詢
  • 杭州知名的網(wǎng)站制作策略谷歌seo外包
  • 商城網(wǎng)站html模板競(jìng)價(jià)廣告是什么意思
  • 蘇州建站模板展示360投放廣告怎么收費(fèi)
  • 本機(jī)怎么放自己做的網(wǎng)站市場(chǎng)推廣外包團(tuán)隊(duì)
  • 手機(jī)建網(wǎng)站怎么弄企業(yè)關(guān)鍵詞優(yōu)化最新報(bào)價(jià)
  • 關(guān)于建設(shè)網(wǎng)站的培訓(xùn)知識(shí)長(zhǎng)沙做優(yōu)化的公司
  • 西安做網(wǎng)站建設(shè)哪家好搜索引擎優(yōu)化排名seo
  • 自適應(yīng)導(dǎo)航網(wǎng)站模板線下推廣活動(dòng)策劃方案
  • 做網(wǎng)站生意旁軟文廣告經(jīng)典案例600
  • 視頻拍攝腳本模板廣州seo優(yōu)化費(fèi)用
  • 百度統(tǒng)計(jì)網(wǎng)站速度診斷快速優(yōu)化官網(wǎng)
  • 發(fā)放淘寶優(yōu)惠券的網(wǎng)站怎么做免費(fèi)seo推廣計(jì)劃
  • 山東電力建設(shè)第一工程公司網(wǎng)站怎么讓客戶主動(dòng)找你
  • 網(wǎng)站推廣商品怎么做效果最好奇葩網(wǎng)站100個(gè)
  • 經(jīng)典網(wǎng)站案例國(guó)際新聞今天
  • seo網(wǎng)站結(jié)構(gòu)優(yōu)化seo排名查詢軟件
  • 公司網(wǎng)站設(shè)計(jì)案例其他搜索引擎
  • 建設(shè)銀行的網(wǎng)站是多少網(wǎng)絡(luò)營(yíng)銷專業(yè)是學(xué)什么的
  • 網(wǎng)頁(yè)定做寧波 seo排名公司
  • 馀姚網(wǎng)站建設(shè)公司網(wǎng)站模版
  • 鄭州企業(yè)網(wǎng)站開(kāi)發(fā)營(yíng)銷軟文怎么寫
  • 企業(yè)網(wǎng)站建設(shè)公司鄭州什么樣的人適合做策劃
  • html5寫的網(wǎng)站有什么好處手機(jī)百度關(guān)鍵詞優(yōu)化
  • 用wordpress做音樂(lè)網(wǎng)站seo產(chǎn)品是什么意思