典型的軟件開(kāi)發(fā)模型都有哪些關(guān)鍵詞優(yōu)化靠譜推薦
目錄
爬蟲(chóng)的分類(lèi)
1.通用網(wǎng)絡(luò)爬蟲(chóng):搜索引擎的爬蟲(chóng)
2.聚焦網(wǎng)絡(luò)爬蟲(chóng):針對(duì)特定網(wǎng)頁(yè)的爬蟲(chóng)
3.增量式網(wǎng)絡(luò)爬蟲(chóng)
4.深層網(wǎng)絡(luò)爬蟲(chóng)
通用爬蟲(chóng)與聚焦爬蟲(chóng)的原理
通用爬蟲(chóng):
聚焦爬蟲(chóng):
爬蟲(chóng)的分類(lèi)
網(wǎng)絡(luò)爬蟲(chóng)按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),大致可分為4類(lèi),即通用網(wǎng)絡(luò)爬蟲(chóng)、聚焦網(wǎng)絡(luò)爬蟲(chóng)、增量網(wǎng)絡(luò)爬蟲(chóng)和深層次網(wǎng)絡(luò)爬蟲(chóng)。
?
1.通用網(wǎng)絡(luò)爬蟲(chóng):搜索引擎的爬蟲(chóng)
????????比如用戶(hù)在百度搜索引擎上檢索對(duì)應(yīng)關(guān)鍵詞時(shí),百度將對(duì)關(guān)鍵詞進(jìn)行分析處理,從收錄的網(wǎng)頁(yè)中找出相關(guān)的再根據(jù)一定的排名規(guī)則進(jìn)行排序后展現(xiàn)給用戶(hù),那么就需要盡可能多的互聯(lián)網(wǎng)的優(yōu)質(zhì)網(wǎng)頁(yè)。
????????從互聯(lián)網(wǎng)中搜集網(wǎng)頁(yè),采集信息,這些網(wǎng)頁(yè)信息用于為搜索引擎建立索引從而提供支持,它決定著整個(gè)引擎系統(tǒng)的內(nèi)容是否豐富,信息是否即時(shí),因此其性能的優(yōu)劣直接影響著搜索引擎的效果。
2.聚焦網(wǎng)絡(luò)爬蟲(chóng):針對(duì)特定網(wǎng)頁(yè)的爬蟲(chóng)
????????也叫主題網(wǎng)絡(luò)爬蟲(chóng),爬取的
目標(biāo)網(wǎng)頁(yè)定位在與主題相關(guān)的頁(yè)面中
,主要為某一類(lèi)特定的人群提供服務(wù),可以節(jié)省大量的服務(wù)器資源和帶寬資源。聚焦爬蟲(chóng)在實(shí)施網(wǎng)頁(yè)抓取時(shí)會(huì)對(duì)內(nèi)容進(jìn)行處理篩選,盡量保證只抓取與需求相關(guān)的網(wǎng)頁(yè)信息。比如要獲取某一垂直領(lǐng)域的數(shù)據(jù)或有明確的檢索需求,此時(shí)需要過(guò)濾掉一些無(wú)用的信息。
例如:那些比較價(jià)格的網(wǎng)站,就是爬取的其他網(wǎng)站的商品。
3.增量式網(wǎng)絡(luò)爬蟲(chóng)
增量式網(wǎng)絡(luò)爬蟲(chóng)(Incremental Web Crawler),所謂增量式,即增量式更新。增量式更新指的是再更新的時(shí)候只更新改變的地方,而為改變的地方則不更新,所以該爬蟲(chóng)只爬取內(nèi)容發(fā)生變化的網(wǎng)頁(yè)或者新產(chǎn)生的網(wǎng)頁(yè)。比如:招聘網(wǎng)爬蟲(chóng)
4.深層網(wǎng)絡(luò)爬蟲(chóng)
深層網(wǎng)絡(luò)爬蟲(chóng)(Deep Web Crawler),首先,什么是深層頁(yè)面?
在互聯(lián)網(wǎng)中,網(wǎng)頁(yè)按存在方式劃分為表層頁(yè)面和深層頁(yè)面。所謂表層頁(yè)面,指的是不需要提交表單,使用靜態(tài)的鏈接能夠到達(dá)的靜態(tài)頁(yè)面;而深層頁(yè)面是需要調(diào)教一定的關(guān)鍵詞之后才能獲取的頁(yè)面。在互聯(lián)網(wǎng)中,深層頁(yè)面數(shù)量往往比表層頁(yè)面多得多。
深層網(wǎng)絡(luò)爬蟲(chóng)主要由URL列表、LVS【虛擬服務(wù)器】列表、爬行控制器、解析器、LVS控制器、表單分析器、表單處理器、響應(yīng)分析器等構(gòu)成。
后面我們主要學(xué)習(xí)聚焦爬蟲(chóng),聚焦爬蟲(chóng)學(xué)會(huì)了,其他類(lèi)型的爬蟲(chóng)也就能輕而易舉的寫(xiě)出來(lái)
通用爬蟲(chóng)與聚焦爬蟲(chóng)的原理
通用爬蟲(chóng):
第一步:抓取網(wǎng)頁(yè)(url)
start_url發(fā)送請(qǐng)求,在獲取響應(yīng)解析;
從響應(yīng)解析中獲取到了需要的新的url,將這些URL放入待抓取URL隊(duì)列;
取出待抓取URL,解析DNS得到主機(jī)的IP,并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái),存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中,并且將這些URL放進(jìn)已抓取URL隊(duì)列。
分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)....
第二步:數(shù)據(jù)存儲(chǔ)
搜索引擎通過(guò)爬蟲(chóng)爬取到的網(wǎng)頁(yè),將數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)。其中的頁(yè)面數(shù)據(jù)與用戶(hù)瀏覽器得到的HTML是完全一樣的。
搜索引擎蜘蛛在抓取頁(yè)面時(shí),也做一定的重復(fù)內(nèi)容檢測(cè),一旦遇到訪(fǎng)問(wèn)權(quán)重很低的網(wǎng)站上有大量抄襲、采集或者復(fù)制的內(nèi)容,很可能就不再爬行。
第三步:預(yù)處理
搜索引擎將爬蟲(chóng)抓取回來(lái)的頁(yè)面,進(jìn)行各種步驟的預(yù)處理。
提取文字
中文分詞
消除噪音(比如版權(quán)聲明文字、導(dǎo)航條、廣告等……)
索引處理
鏈接關(guān)系計(jì)算
特殊文件處理
....
除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類(lèi)型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我們?cè)谒阉鹘Y(jié)果中也經(jīng)常會(huì)看到這些文件類(lèi)型。
但搜索引擎還不能處理圖片、視頻、Flash 這類(lèi)非文字內(nèi)容,也不能執(zhí)行腳本和程序。
第四步:提供檢索服務(wù),網(wǎng)站排名
搜索引擎在對(duì)信息進(jìn)行組織和處理后,為用戶(hù)提供關(guān)鍵字檢索服務(wù),將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)。
聚焦爬蟲(chóng):
第一步:start_url 發(fā)送請(qǐng)求
第二步:獲取響應(yīng)(response)
第三步:解析響應(yīng),若響應(yīng)中有需要的新的url地址,重復(fù)第二步;
第四步:提取數(shù)據(jù)
第五步:保存數(shù)據(jù)
通常,我們會(huì)把獲取響應(yīng),解析放在一個(gè)步驟中完成,所以說(shuō),聚焦爬蟲(chóng)的步驟,通俗的來(lái)講一共四步
爬蟲(chóng)的基本分類(lèi)和原理就介紹到這里了,我們下一期再見(jiàn)!
分享一張壁紙:?