哪個(gè)網(wǎng)站可以做服裝批發(fā)站內(nèi)優(yōu)化包括哪些
1.創(chuàng)建scrapy項(xiàng)目的命令:
????scrapy startproject <項(xiàng)目名字>
示例:
????scrapy startproject myspider
2.通過(guò)命令創(chuàng)建出爬蟲(chóng)文件,爬蟲(chóng)文件為主要的代碼文件,通常一個(gè)網(wǎng)站的爬取動(dòng)作都會(huì)在爬蟲(chóng)文件中進(jìn)行編寫(xiě)。
命令:
????在項(xiàng)目路徑下執(zhí)行:
????scrapy genspider <爬蟲(chóng)名字> <允許爬取的域名>
爬蟲(chóng)名字: 作為爬蟲(chóng)運(yùn)行時(shí)的參數(shù)
允許爬取的域名: 為對(duì)于爬蟲(chóng)設(shè)置的爬取范圍,設(shè)置之后用于過(guò)濾要爬取的url,如果爬取的url與允許的域不通則被過(guò)濾掉。
示例:
cd myspider 這一步是進(jìn)入當(dāng)前項(xiàng)目路徑
scrapy genspider lianjia lianjia.com 再創(chuàng)建爬蟲(chóng)文件
item : 定制你要抓取的字段 比方說(shuō)你要去爬取一個(gè)網(wǎng)站 里面有標(biāo)題 用name變量去接收 就先在item里面定制好接收的字段
setting:放的是你爬蟲(chóng)的最基本信息 包括爬蟲(chóng)的初始化偽裝 也需要在這里面去完成
pipelines:保存數(shù)據(jù) --不管你是要保存數(shù)據(jù)到Excel里面或者數(shù)據(jù)里面都需要在這個(gè)文件抒寫(xiě)
middlewares:爬蟲(chóng)中間件
- 運(yùn)行scrapy
命令:在項(xiàng)目目錄下執(zhí)行scrapy crawl <爬蟲(chóng)名字>
示例:scrapy crawl 爬蟲(chóng)名字 --nolog 忽略日志信息
7.1 也可爬蟲(chóng)項(xiàng)目中執(zhí)行命令
每次我們寫(xiě)完代碼進(jìn)行測(cè)試的時(shí)候,都要去安裝目錄執(zhí)行,所以為了方便,我們要寫(xiě)一個(gè)再爬蟲(chóng)項(xiàng)目根目錄中創(chuàng)建.py結(jié)尾的文件,執(zhí)行以下指令:
from scrapy import cmdline
cmdline.execute([‘scrapy’,‘crawl’,‘lianjia’])
#.extract()提取內(nèi)容方法
打開(kāi)Scrapy Shel
例如:
cd mySpider 進(jìn)入項(xiàng)目路徑
scrapy shell https://cs.lianjia.com/zufang/ #想要測(cè)試的url