無(wú)錫高端網(wǎng)站建設(shè)營(yíng)銷文案
簡(jiǎn)單記錄一下,實(shí)現(xiàn)爬取豆瓣電影Top 250的數(shù)據(jù)。
這里我使用requests
庫(kù)來(lái)發(fā)送HTTP請(qǐng)求,以及BeautifulSoup
庫(kù)來(lái)解析HTML頁(yè)面。
1.安裝requests
和BeautifulSoup
庫(kù)。
如果沒(méi)有安裝,可以通過(guò)以下命令安裝:
pip install requests beautifulsoup4
2.具體實(shí)現(xiàn)代碼
import requests
from bs4 import BeautifulSoup# 豆瓣電影Top 250的URL
base_url = "https://movie.douban.com/top250"# 存儲(chǔ)電影信息的列表
movies = []# 豆瓣電影Top 250有10頁(yè),每頁(yè)25部電影
for i in range(10):# 構(gòu)造每一頁(yè)的URLurl = f"{base_url}{i * 25}"response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')# 找到所有電影的容器items = soup.find_all('div', class_='item')for item in items:# 電影名title = item.find('span', class_='title').get_text()# 評(píng)分rating_num = item.find('span', class_='rating_num').get_text()# 評(píng)價(jià)人數(shù)rating_people = item.find('div', class_='star').find_all('span')[-1].get_text().strip('人評(píng)價(jià)')# 將電影信息存儲(chǔ)為字典movie = {'title': title,'rating_num': rating_num,'rating_people': rating_people}movies.append(movie)# 打印電影信息
for movie in movies:print(f"電影名: {movie['title']}, 評(píng)分: {movie['rating_num']}, 評(píng)價(jià)人數(shù): {movie['rating_people']}")
3.注意事項(xiàng)
請(qǐng)遵守豆瓣的使用條款和條件,不要過(guò)度請(qǐng)求豆瓣的服務(wù)器,以免給豆瓣造成不必要的負(fù)擔(dān)。