中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

站酷網(wǎng)怎么賺錢鄭州網(wǎng)站建設(shè)推廣優(yōu)化

站酷網(wǎng)怎么賺錢,鄭州網(wǎng)站建設(shè)推廣優(yōu)化,南通網(wǎng)站建設(shè)服務(wù)公司,合肥網(wǎng)站推廣培訓(xùn)前言 Scrapy是非常優(yōu)秀的一個(gè)爬蟲框架,基于twisted異步編程框架。yield的使用如此美妙?;谡{(diào)度器,下載器可以對(duì)scrapy擴(kuò)展編程。插件也是非常豐富,和Selenium,PlayWright集成也比較輕松。 當(dāng)然,對(duì)網(wǎng)頁中的ajax請求…

前言

Scrapy是非常優(yōu)秀的一個(gè)爬蟲框架,基于twisted異步編程框架。yield的使用如此美妙?;谡{(diào)度器,下載器可以對(duì)scrapy擴(kuò)展編程。插件也是非常豐富,和Selenium,PlayWright集成也比較輕松。

當(dāng)然,對(duì)網(wǎng)頁中的ajax請求它是無能無力的,但結(jié)合mitmproxy幾乎無所不能:Scrapy + PlayWright模擬用戶點(diǎn)擊,mitmproxy則在后臺(tái)抓包取數(shù)據(jù),登錄一次,運(yùn)行一天。

最終,我通過asyncio把這幾個(gè)工具整合到了一起,基本達(dá)成了自動(dòng)化無人值守的穩(wěn)定運(yùn)行,一篇篇的文章送入我的ElasticSearch集群,經(jīng)過知識(shí)工廠流水線,變成知識(shí)商品。

”爬蟲+數(shù)據(jù),算法+智能“,這是一個(gè)技術(shù)人的理想。

配置與運(yùn)行

安裝:

pip install scrapy

當(dāng)前目錄下有scrapy.cfg和settings.py,即可運(yùn)行scrapy

命令行運(yùn)行:

scrapy crawl ArticleSpider

在程序中運(yùn)行有三種寫法:

from scrapy.cmdline import executeexecute('scrapy crawl ArticleSpider'.split())

采用CrawlerRunner:

# 采用CrawlerRunner
from twisted.internet.asyncioreactor import AsyncioSelectorReactor
reactor = AsyncioSelectorReactor()runner = CrawlerRunner(settings)
runner.crawl(ArticleSpider)
reactor.run()

采用CrawlerProcess

# 采用CrawlerProcess
process = CrawlerProcess(settings)
process.crawl(ArticleSpider)
process.start()

和PlayWright的集成

安裝

pip install scrapy-playwright
playwright install
playwright install firefox chromium

settings.py配置

BOT_NAME = 'ispider'SPIDER_MODULES = ['ispider.spider']TWISTED_REACTOR = 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'
DOWNLOAD_HANDLERS = {"https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler","http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",
}CONCURRENT_REQUESTS = 32
PLAYWRIGHT_MAX_PAGES_PER_CONTEXT = 4
CLOSESPIDER_ITEMCOUNT = 100PLAYWRIGHT_CDP_URL = "http://localhost:9900"

爬蟲定義

class ArticleSpider(Spider):name = "ArticleSpider"custom_settings = {# "TWISTED_REACTOR": "twisted.internet.asyncioreactor.AsyncioSelectorReactor",# "DOWNLOAD_HANDLERS": {#     "https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",#     "http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",# },# "CONCURRENT_REQUESTS": 32,# "PLAYWRIGHT_MAX_PAGES_PER_CONTEXT": 4,# "CLOSESPIDER_ITEMCOUNT": 100,}start_urls = ["https://blog.csdn.net/nav/lang/javascript"]def __init__(self, name=None, **kwargs):super().__init__(name, **kwargs)logger.debug('ArticleSpider initialized.')def start_requests(self):for url in self.start_urls:yield Request(url,meta={"playwright": True,"playwright_context": "first","playwright_include_page": True,"playwright_page_goto_kwargs": {"wait_until": "domcontentloaded",},},)async def parse(self, response: Response, current_page: Optional[int] = None) -> Generator:content = response.textpage = response.meta["playwright_page"]context = page.contexttitle = await page.title()while True:## 垂直滾動(dòng)下拉,不斷刷新數(shù)據(jù)page.mouse.wheel(delta_x=0, delta_y=200)time.sleep(3)pass

參考鏈接

  • 官方scrapy-playwright插件
  • 崔慶才丨靜覓寫的插件GerapyPlaywright
http://www.risenshineclean.com/news/11207.html

相關(guān)文章:

  • wordpress免簽約支付寶西安seo工作室
  • 網(wǎng)站開發(fā)建設(shè)專業(yè)品牌網(wǎng)站建設(shè)制作
  • 可以玩小游戲的網(wǎng)站東莞網(wǎng)站seo公司哪家大
  • 成年人正能量入口網(wǎng)站怎么優(yōu)化排名的方法
  • wordpress站點(diǎn)改名銷售成功案例分享
  • discuz和wordpress哪個(gè)好西安seo王塵宇
  • 長沙哪個(gè)平臺(tái)做網(wǎng)站好注冊網(wǎng)址在哪里注冊
  • 網(wǎng)站建設(shè)的目的模板如何搭建一個(gè)網(wǎng)站
  • wordpress 菜單浮動(dòng)長沙搜索排名優(yōu)化公司
  • 沈陽市建設(shè)委會(huì)網(wǎng)站輿情報(bào)告
  • 長沙做網(wǎng)站多少錢google優(yōu)化排名
  • 潁上縣建設(shè)局網(wǎng)站網(wǎng)絡(luò)營銷概述
  • 網(wǎng)頁設(shè)計(jì)策劃案范文seo技術(shù) 快速網(wǎng)站排名
  • 網(wǎng)站導(dǎo)航條內(nèi)容網(wǎng)絡(luò)營銷工作內(nèi)容和職責(zé)
  • 如何增加網(wǎng)站的索引量今日國際新聞?lì)^條15條
  • 官方網(wǎng)站模板seo平臺(tái)怎么樣
  • 保定設(shè)計(jì)網(wǎng)站建設(shè)網(wǎng)站設(shè)計(jì)公司排名
  • 南京做電商網(wǎng)站的公司三亞百度推廣開戶
  • 電子元器件網(wǎng)站建設(shè)北京seo公司公司
  • 網(wǎng)站的登錄注冊怎么做希愛力
  • 文案轉(zhuǎn)行做網(wǎng)站編輯網(wǎng)絡(luò)營銷的主要特點(diǎn)有哪些
  • 做鏡像網(wǎng)站違法引擎搜索大全
  • 3 闡述網(wǎng)站建設(shè)的步驟過程 9分搜索引擎優(yōu)化方法案例
  • 網(wǎng)站建設(shè)用啥技術(shù)開發(fā)一個(gè)app價(jià)目表
  • 注冊企業(yè)郵箱需要什么新鄉(xiāng)搜索引擎優(yōu)化
  • 什么網(wǎng)站可以做數(shù)據(jù)圖阿里云域名注冊
  • 如何做國外的電商網(wǎng)站設(shè)計(jì)廣告營銷的經(jīng)典案例
  • 中國建設(shè)銀行手機(jī)銀行網(wǎng)站ui設(shè)計(jì)
  • 做網(wǎng)站服務(wù)器是什么百度上搜索關(guān)鍵詞如何在首頁
  • 濮陽網(wǎng)站建設(shè)哪家好推廣軟件排行榜前十名