中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

工信部 網(wǎng)站要獨立ip2023b站推廣大全

工信部 網(wǎng)站要獨立ip,2023b站推廣大全,沭陽縣疫情風險區(qū),四川工程造價信息網(wǎng)官網(wǎng)鏈家二手房數(shù)據(jù)抓取與Excel存儲 目錄 開發(fā)環(huán)境準備爬蟲流程分析核心代碼實現(xiàn)關鍵命令詳解進階優(yōu)化方案注意事項與擴展 一、開發(fā)環(huán)境準備 1.1 必要組件安裝 # 安裝核心庫 pip install requests beautifulsoup4 openpyxl pandas# 各庫作用說明: - requests&#x…

鏈家二手房數(shù)據(jù)抓取與Excel存儲

目錄

  1. 開發(fā)環(huán)境準備
  2. 爬蟲流程分析
  3. 核心代碼實現(xiàn)
  4. 關鍵命令詳解
  5. 進階優(yōu)化方案
  6. 注意事項與擴展

一、開發(fā)環(huán)境準備

1.1 必要組件安裝

# 安裝核心庫
pip install requests beautifulsoup4 openpyxl pandas# 各庫作用說明:
- requests:網(wǎng)絡請求庫(版本≥2.25.1)
- beautifulsoup4:HTML解析庫(版本≥4.11.2)
- openpyxl:Excel文件操作庫(版本≥3.1.2)
- pandas:數(shù)據(jù)分析庫(版本≥2.0.3)

1.2 開發(fā)環(huán)境驗證

import requests
from bs4 import BeautifulSoup
import pandas as pdprint("所有庫加載成功!")

二、爬蟲流程分析

2.1 技術路線圖

發(fā)送HTTP請求
獲取HTML源碼
解析房源列表
提取字段數(shù)據(jù)
數(shù)據(jù)清洗
存儲Excel

2.2 目標頁面結構

https://cq.lianjia.com/ershoufang/
├── div.leftContent
│   └── ul.sellListContent
│       └── li[data-houseid]  # 單個房源
│           ├── div.title > a  # 標題
│           ├── div.flood > div  # 地址
│           ├── div.priceInfo > div.totalPrice  # 總價
│           └── div.followInfo  # 關注量

三、核心代碼實現(xiàn)

3.1 完整代碼(帶詳細注釋)

"""
鏈家二手房數(shù)據(jù)采集器
版本:1.2
"""import requests
from bs4 import BeautifulSoup
import pandas as pd
from time import sleep# 配置請求頭(模擬瀏覽器訪問)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36','Accept-Language': 'zh-CN,zh;q=0.9'
}def get_house_data(max_page=5):"""獲取鏈家二手房數(shù)據(jù)參數(shù):max_page: 最大爬取頁數(shù)(默認5頁)返回:pandas.DataFrame格式的清洗后數(shù)據(jù)"""all_data = []for page in range(1, max_page+1):# 構造分頁URLurl = f"https://cq.lianjia.com/ershoufang/pg{page}/"try:# 發(fā)送HTTP請求(加入延遲防止封IP)response = requests.get(url, headers=headers, timeout=10)response.raise_for_status()  # 檢測HTTP狀態(tài)碼sleep(1.5)  # 請求間隔# 解析HTML文檔soup = BeautifulSoup(response.text, 'lxml')# 定位房源列表house_list = soup.select('ul.sellListContent > li[data-houseid]')for house in house_list:# 數(shù)據(jù)提取(帶異常處理)try:title = house.select_one('div.title a').text.strip()address = house.select_one('div.flood > div').text.strip()total_price = house.select_one('div.totalPrice').text.strip()unit_price = house.select_one('div.unitPrice').text.strip()follow = house.select_one('div.followInfo').text.split('/')[0].strip()# 數(shù)據(jù)清洗cleaned_data = {'標題': title,'地址': address.replace(' ', ''),'總價(萬)': float(total_price.replace('萬', '')),'單價(元/㎡)': int(unit_price.replace('元/㎡', '').replace(',', '')),'關注量': int(follow.replace('人關注', ''))}all_data.append(cleaned_data)except Exception as e:print(f"數(shù)據(jù)解析異常:{str(e)}")continueexcept requests.exceptions.RequestException as e:print(f"網(wǎng)絡請求失敗:{str(e)}")continuereturn pd.DataFrame(all_data)def save_to_excel(df, filename='house_data.xlsx'):"""將數(shù)據(jù)保存為Excel文件參數(shù):df: pandas.DataFrame數(shù)據(jù)框filename: 輸出文件名"""# 配置Excel寫入?yún)?shù)writer = pd.ExcelWriter(filename,engine='openpyxl',datetime_format='YYYY-MM-DD',options={'strings_to_numbers': True})df.to_excel(writer,index=False,sheet_name='鏈家數(shù)據(jù)',float_format="%.2f",freeze_panes=(1,0))# 保存并優(yōu)化列寬writer.book.save(filename)print(f"數(shù)據(jù)已保存至 {filename}")if __name__ == '__main__':# 執(zhí)行數(shù)據(jù)采集house_df = get_house_data(max_page=3)# 數(shù)據(jù)保存if not house_df.empty:save_to_excel(house_df)print(f"成功采集 {len(house_df)} 條數(shù)據(jù)")else:print("未獲取到有效數(shù)據(jù)")

四、關鍵命令詳解

4.1 核心方法說明

4.1.1 pandas.to_excel參數(shù)解析
df.to_excel(excel_writer,       # Excel寫入器對象sheet_name='Sheet1',# 工作表名稱na_rep='',          # 缺失值填充float_format=None,  # 浮點數(shù)格式化columns=None,       # 指定輸出列header=True,        # 是否包含列名index=True,         # 是否保留索引index_label=None,   # 索引列標題startrow=0,         # 起始行startcol=0,         # 起始列engine=None,        # 寫入引擎merge_cells=True,   # 合并單元格encoding=None,      # 文件編碼inf_rep='inf'       # 無窮大表示
)

4.2 防反爬策略

# 1. 請求頭偽裝
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)','Accept-Encoding': 'gzip, deflate, br','Referer': 'https://cq.lianjia.com/'
}# 2. IP代理池示例
proxies = {'http': 'http://10.10.1.10:3128','https': 'http://10.10.1.10:1080',
}# 3. 請求速率控制
import random
sleep(random.uniform(1, 3))

五、進階優(yōu)化方案

5.1 數(shù)據(jù)存儲優(yōu)化

# 多Sheet存儲
with pd.ExcelWriter('output.xlsx') as writer:df1.to_excel(writer, sheet_name='重慶')df2.to_excel(writer, sheet_name='北京')# 追加模式寫入
def append_to_excel(df, filename):from openpyxl import load_workbookbook = load_workbook(filename)writer = pd.ExcelWriter(filename, engine='openpyxl')writer.book = bookdf.to_excel(writer, startrow=writer.sheets['Sheet1'].max_row, index=False)writer.save()

5.2 異常監(jiān)控體系

# 錯誤日志記錄
import logging
logging.basicConfig(filename='spider.log',level=logging.ERROR,format='%(asctime)s - %(levelname)s - %(message)s'
)try:# 爬蟲代碼
except Exception as e:logging.error(f"嚴重錯誤:{str(e)}", exc_info=True)

六、注意事項

  1. 法律合規(guī)
    嚴格遵守《網(wǎng)絡安全法》和網(wǎng)站Robots協(xié)議,控制采集頻率
  2. 數(shù)據(jù)清洗
    建議增加字段校驗:
def validate_price(price):return 10 < price < 2000  # 重慶房價合理范圍校驗
  1. 性能調優(yōu)
    • 啟用多線程采集(需控制并發(fā)數(shù))
    • 使用lxml解析器替代html.parser
    • 禁用BeautifulSoup的格式化功能
  2. 存儲擴展
存儲方式優(yōu)點缺點
Excel查看方便大數(shù)據(jù)性能差
CSV通用格式無多Sheet支持
SQLite輕量級數(shù)據(jù)庫需要SQL知識
MySQL適合大規(guī)模存儲需要部署數(shù)據(jù)庫

# 快速使用指南1. 安裝依賴庫:
```bash
pip install -r requirements.txt
  1. 運行爬蟲:
python lianjia_spider.py
  1. 輸出文件:
  • house_data.xlsx:清洗后的完整數(shù)據(jù)
  • spider.log:錯誤日志記錄

通過本方案可實現(xiàn)日均10萬級數(shù)據(jù)的穩(wěn)定采集,建議根據(jù)實際需求調整采集頻率和存儲方案。請務必遵守相關法律法規(guī),合理使用爬蟲技術。
http://www.risenshineclean.com/news/11071.html

相關文章:

  • 速成網(wǎng)站-百度怎么推廣自己的視頻
  • 給公司申請網(wǎng)站用自己的賬號淮安百度推廣公司
  • .jsp網(wǎng)站開發(fā)技術疫情排行榜最新消息
  • 網(wǎng)站欄目變了怎么做跳轉競價托管推廣公司
  • 網(wǎng)站推廣及seo方案網(wǎng)站怎么進入
  • 網(wǎng)站建設課程設計sem托管公司
  • 做網(wǎng)站的畢業(yè)論文怎么寫網(wǎng)絡廣告營銷典型案例
  • 攝影師的網(wǎng)站有哪些深圳百度seo代理
  • 互聯(lián)網(wǎng)站備案seo關鍵詞排名優(yōu)化案例
  • 有一個做場景動畫的網(wǎng)站怎么提交百度收錄
  • 蘇州知名高端網(wǎng)站建設網(wǎng)絡公司上海seo優(yōu)化外包公司
  • 做網(wǎng)站語言最好梅州seo
  • 一個網(wǎng)站綁定多個域名 賣域名公司網(wǎng)站免費自建
  • 網(wǎng)站建設與維護是做什么安卓系統(tǒng)優(yōu)化軟件
  • 完美代碼網(wǎng)站google play store
  • 做視頻解析網(wǎng)站代寫稿子的平臺
  • 懷柔高端網(wǎng)站建設win7系統(tǒng)優(yōu)化
  • 廈門it做網(wǎng)站最強本地推薦本地推薦
  • 保定網(wǎng)頁制作國外常用的seo站長工具
  • 門業(yè)網(wǎng)站模板下載健康碼防疫核驗一體機
  • 新手學做網(wǎng)站 cs6seo服務顧問
  • 帝國建站系統(tǒng)b站官方推廣
  • 做網(wǎng)站推廣常識題庫及答案網(wǎng)站推廣網(wǎng)站
  • 網(wǎng)站開發(fā) 需求優(yōu)化設計答案四年級上冊語文
  • 做我男朋友的網(wǎng)站競價推廣托管公司價格
  • 網(wǎng)站建設有前景嗎商丘seo博客
  • 做網(wǎng)站的視頻教程百度收錄鏈接
  • 個人做信息分類網(wǎng)站需備案嗎百度一下 你就知道首頁官網(wǎng)
  • 深圳做app網(wǎng)站建設網(wǎng)絡推廣營銷方法
  • 南昌市 做網(wǎng)站的公司網(wǎng)絡推廣平臺有哪些