企業(yè)做網(wǎng)站有用嗎天涯今日足球賽事數(shù)據(jù)
目錄
- 1.lxml安裝
- 2.Beautiful Soup安裝
- 3.pyquery 的安裝
我創(chuàng)建了一個社區(qū),歡迎大家一起學習交流。社區(qū)名稱:Spider學習交流
注:該系列教程已經(jīng)默認用戶安裝了Pycharm和Anaconda,未安裝的可以參考我之前的博客有將如何安裝。同時默認用戶掌握了Python基礎語法。
抓取網(wǎng)頁代碼之后,接著是從網(wǎng)頁中提取信息,提取信息的方式有很多,可以使用正則來提取 ,但是寫起來相對比較煩瑣 。
在這用這些強大的解析庫進行處理,,如 lxml、Beautiful Soup、pyquery等。
1.lxml安裝
lxml是Python一個解析庫,支持 HTML和XML解析,支持 XPath 解析方式,而且解析效率高。
#1.打開anaconda prompt
#2.激活前面創(chuàng)建的conda虛擬環(huán)境
conda activate spider
#3.輸入下述代碼進行安裝
conda install lxml#驗證是否安裝成功
#4.輸入
python
#5.導入該包
import lxml
1.安裝界面
2.驗證是否成功安裝
2.Beautiful Soup安裝
Beautiful Soup是Python的HTML和XML的解析庫,它擁有強大的 API和多樣的解析方式。
安裝方法同上。
給大家放個網(wǎng)址,大家可以自己查看。
Beautiful Soup 4.12.0
大家可以進去網(wǎng)址可以知道3已經(jīng)停止開發(fā),因此我們安裝4.
大家有時間,可以學學HTML(CSS+javascript)很有幫助,主要好理解。
#1.打開anaconda prompt
#2.激活前面創(chuàng)建的conda虛擬環(huán)境
conda activate spider
#3.輸入下述代碼進行安裝
conda install beautifulsoup4#驗證是否安裝成功
#4.輸入
python
#5.導入該包
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello World!<p/>','lxml')
print(soup.p.string)
1.安裝界面
2.驗證
3.pyquery 的安裝
pyquery是個很強大的網(wǎng)頁解析工具,它提供了和 jQuery 類似的語法來解析HTML 文梢,支持css 擇器。
#1.打開anaconda prompt
#2.激活前面創(chuàng)建的conda虛擬環(huán)境
conda activate spider
#3.輸入下述代碼進行安裝
conda install pyquery
#驗證是否安裝成功
#4.輸入
python
#5.導入該包
import pyquery
1.安裝
2.驗證是否成功安裝,如下圖無報錯,即成功安裝