當(dāng)前位置：首頁 > news >正文

做網(wǎng)站連接數(shù)據(jù)庫怎么顯示圖片免費代理上網(wǎng)網(wǎng)站

news 2025/7/9 21:17:06

做網(wǎng)站連接數(shù)據(jù)庫怎么顯示圖片,免費代理上網(wǎng)網(wǎng)站,wix做的網(wǎng)站能扒下來,那個網(wǎng)站專做代購香水的爬蟲專欄：http://t.csdnimg.cn/WfCSx 前言在前一章中，我們了解了 Ajax 的分析和抓取方式，這其實也是 JavaScript 動態(tài)渲染的頁面的一種情形，通過直接分析 Ajax，我們?nèi)匀豢梢越柚?requests 或 urllib 來實現(xiàn)數(shù)據(jù)爬取…

爬蟲專欄：http://t.csdnimg.cn/WfCSx

前言

在前一章中，我們了解了 Ajax 的分析和抓取方式，這其實也是 JavaScript 動態(tài)渲染的頁面的一種情形，通過直接分析 Ajax，我們?nèi)匀豢梢越柚?requests 或 urllib 來實現(xiàn)數(shù)據(jù)爬取。

不過 JavaScript 動態(tài)渲染的頁面不止 Ajax 這一種。比如中國青年網(wǎng)（詳見國內(nèi)_新聞頻道_中國青年網(wǎng)），它的分頁部分是由 JavaScript 生成的，并非原始 HTML 代碼，這其中并不包含 Ajax 請求。比如 ECharts 的官方實例（詳見 http://echarts.baidu.com/demo.html），其圖形都是經(jīng)過 JavaScript 計算之后生成的。再有淘寶這種頁面，它即使是 Ajax 獲取的數(shù)據(jù)，但是其 Ajax 接口含有很多加密參數(shù)，我們難以直接找出其規(guī)律，也很難直接分析 Ajax 來抓取。

為了解決這些問題，我們可以直接使用模擬瀏覽器運行的方式來實現(xiàn)，這樣就可以做到在瀏覽器中看到是什么樣，抓取的源碼就是什么樣，也就是可見即可爬。這樣我們就不用再去管網(wǎng)頁內(nèi)部的 JavaScript 用了什么算法渲染頁面，不用管網(wǎng)頁后臺的 Ajax 接口到底有哪些參數(shù)。

Python 提供了許多模擬瀏覽器運行的庫，如 Selenium、Splash、PyV8、Ghost 等。本章中，我們就來介紹一下 Selenium 和 Splash 的用法。有了它們，就不用再為動態(tài)渲染的頁面發(fā)愁了。

Selenium 的使用

Selenium 是一個自動化測試工具，利用它可以驅(qū)動瀏覽器執(zhí)行特定的動作，如點擊、下拉等操作，同時還可以獲取瀏覽器當(dāng)前呈現(xiàn)的頁面的源代碼，做到可見即可爬。對于一些 JavaScript 動態(tài)渲染的頁面來說，此種抓取方式非常有效。本節(jié)中，就讓我們來感受一下它的強大之處吧。

1. 準(zhǔn)備工作

本節(jié)以 Chrome 為例來講解 Selenium 的用法。在開始之前，請確保已經(jīng)正確安裝好了 Chrome 瀏覽器并配置好了 ChromeDriver。另外，還需要正確安裝好 Python 的 Selenium 庫，詳細(xì)的安裝和配置過程可以參考Python爬蟲請求庫安裝#1-CSDN博客

2. 基本使用

準(zhǔn)備工作做好之后，首先來大體看一下 Selenium 有一些怎樣的功能。示例如下：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
?
browser = webdriver.Chrome()
try:browser.get('https://www.baidu.com')input = browser.find_element_by_id('kw')input.send_keys('Python')input.send_keys(Keys.ENTER)wait = WebDriverWait(browser, 10)wait.until(EC.presence_of_element_located((By.ID, 'content_left')))print(browser.current_url)print(browser.get_cookies())print(browser.page_source)
finally:browser.close()

運行代碼后發(fā)現(xiàn)，會自動彈出一個 Chrome 瀏覽器。瀏覽器首先會跳轉(zhuǎn)到百度，然后在搜索框中輸入 Python，接著跳轉(zhuǎn)到搜索結(jié)果頁。

此時在控制臺的輸出結(jié)果如下：

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=0&rsv_idx=1&tn=baidu&wd=Python&rsv_pq=c94d0df9000a72d0&rsv_t=07099xvun1ZmC0bf6eQvygJ43IUTTUOl5FCJVPgwG2YREs70GplJjH2F%2BCQ&rqlang=cn&rsv_enter=1&rsv_sug3=6&rsv_sug2=0&inputT=87&rsv_sug4=87
[{'secure': False, 'value': 'B490B5EBF6F3CD402E515D22BCDA1598', 'domain': '.baidu.com', 'path': '/', 'httpOnly': False, 'name': 'BDORZ', 'expiry': 1491688071.707553}, {'secure': False, 'value': '22473_1441_21084_17001', 'domain': '.baidu.com', 'path': '/', 'httpOnly': False, 'name': 'H_PS_PSSID'}, {'secure': False, 'value': '12883875381399993259_00_0_I_R_2_0303_C02F_N_I_I_0', 'domain': '.www.baidu.com', 'path': '/', 'httpOnly': False, 'name': '__bsi', 'expiry': 1491601676.69722}]
<!DOCTYPE html><!--STATUS OK-->...</html>

源代碼過長，在此省略?？梢钥吹?#xff0c;我們得到的當(dāng)前 URL、Cookies 和源代碼都是瀏覽器中的真實內(nèi)容。

所以說，如果用 Selenium 來驅(qū)動瀏覽器加載網(wǎng)頁的話，就可以直接拿到 JavaScript 渲染的結(jié)果了，不用擔(dān)心使用的是什么加密系統(tǒng)。

下面來詳細(xì)了解一下 Selenium 的用法。

3. 聲明瀏覽器對象

Selenium 支持非常多的瀏覽器，如 Chrome、Firefox、Edge 等，還有 Android、BlackBerry 等手機端的瀏覽器。另外，也支持無界面瀏覽器 PhantomJS。

此外，我們可以用如下方式初始化：

from selenium import webdriver
?
browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()

這樣就完成了瀏覽器對象的初始化并將其賦值為 browser 對象。接下來，我們要做的就是調(diào)用 browser 對象，讓其執(zhí)行各個動作以模擬瀏覽器操作。

4. 訪問頁面

我們可以用 get() 方法來請求網(wǎng)頁，參數(shù)傳入鏈接 URL 即可。比如，這里用 get() 方法訪問淘寶，然后打印出源代碼，代碼如下：

from selenium import webdriver
?
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
print(browser.page_source)
browser.close()

運行后發(fā)現(xiàn)，彈出了 Chrome 瀏覽器并且自動訪問了淘寶，然后控制臺輸出了淘寶頁面的源代碼，隨后瀏覽器關(guān)閉。

通過這幾行簡單的代碼，我們可以實現(xiàn)瀏覽器的驅(qū)動并獲取網(wǎng)頁源碼，非常便捷。

4. 查找節(jié)點

Selenium 可以驅(qū)動瀏覽器完成各種操作，比如填充表單、模擬點擊等。比如，我們想要完成向某個輸入框輸入文字的操作，總需要知道這個輸入框在哪里吧？而 Selenium 提供了一系列查找節(jié)點的方法，我們可以用這些方法來獲取想要的節(jié)點，以便下一步執(zhí)行一些動作或者提取信息。

單個節(jié)點

比如，想要從淘寶頁面中提取搜索框這個節(jié)點，首先要觀察它的源代碼。

可以發(fā)現(xiàn)，它的 id 是 q，name 也是 q。此外，還有許多其他屬性，此時我們就可以用多種方式獲取它了。比如，find_element_by_name() 是根據(jù) name 值獲取，find_element_by_id() 是根據(jù) id 獲取。另外，還有根據(jù) XPath、CSS 選擇器等獲取的方式。

我們用代碼實現(xiàn)一下：

from selenium import webdriver
?
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element_by_id('q')
input_second = browser.find_element_by_css_selector('#q')
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first, input_second, input_third)
browser.close()

這里我們使用 3 種方式獲取輸入框，分別是根據(jù) ID、CSS 選擇器和 XPath 獲取，它們返回的結(jié)果完全一致。運行結(jié)果如下：

<selenium.webdriver.remote.webelement.WebElement (session="5e53d9e1c8646e44c14c1c2880d424af", element="0.5649563096161541-1")> 
<selenium.webdriver.remote.webelement.WebElement (session="5e53d9e1c8646e44c14c1c2880d424af", element="0.5649563096161541-1")> 
<selenium.webdriver.remote.webelement.WebElement (session="5e53d9e1c8646e44c14c1c2880d424af", element="0.5649563096161541-1")>

可以看到，這 3 個節(jié)點都是 WebElement 類型，是完全一致的。

這里列出所有獲取單個節(jié)點的方法：

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

另外，Selenium 還提供了通用方法 find_element()，它需要傳入兩個參數(shù)：查找方式 By 和值。實際上，它就是 find_element_by_id() 這種方法的通用函數(shù)版本，比如 find_element_by_id(id) 就等價于 find_element(By.ID, id)，二者得到的結(jié)果完全一致。我們用代碼實現(xiàn)一下：

from selenium import webdriver
from selenium.webdriver.common.by import By
?
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element(By.ID, 'q')
print(input_first)
browser.close()

實際上，這種查找方式的功能和上面列舉的查找函數(shù)完全一致，不過參數(shù)更加靈活。

多個節(jié)點

如果查找的目標(biāo)在網(wǎng)頁中只有一個，那么完全可以用 find_element() 方法。但如果有多個節(jié)點，再用 find_element() 方法查找，就只能得到第一個節(jié)點了。如果要查找所有滿足條件的節(jié)點，需要用 find_elements() 這樣的方法。注意，在這個方法的名稱中，element 多了一個 s，注意區(qū)分。

比如，要查找淘寶左側(cè)導(dǎo)航條的所有條目。

就可以這樣來實現(xiàn)：

from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://www.taobao.com')
lis = browser.find_elements_by_css_selector('.service-bd li')
print(lis)
browser.close()

運行結(jié)果如下：

[<selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-1")>, <selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-2")>, <selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-3")>...<selenium.webdriver.remote.webelement.WebElement (session="c26290835d4457ebf7d96bfab3740d19", element="0.09221044033125603-16")>]

這里簡化了輸出結(jié)果，中間部分省略。

可以看到，得到的內(nèi)容變成了列表類型，列表中的每個節(jié)點都是 WebElement 類型。

也就是說，如果我們用 find_element() 方法，只能獲取匹配的第一個節(jié)點，結(jié)果是 WebElement 類型。如果用 find_elements() 方法，則結(jié)果是列表類型，列表中的每個節(jié)點是 WebElement 類型。

這里列出所有獲取多個節(jié)點的方法：

find_elements_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

當(dāng)然，我們也可以直接用 find_elements() 方法來選擇，這時可以這樣寫：

lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')

結(jié)果是完全一致的。

6. 節(jié)點交互

Selenium 可以驅(qū)動瀏覽器來執(zhí)行一些操作，也就是說可以讓瀏覽器模擬執(zhí)行一些動作。比較常見的用法有：輸入文字時用 send_keys 方法，清空文字時用 clear 方法，點擊按鈕時用 click 方法。示例如下：

from selenium import webdriver
import timebrowser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input = browser.find_element_by_id('q')
input.send_keys('iPhone')
time.sleep(1)
input.clear()
input.send_keys('iPad')
button = browser.find_element_by_class_name('btn-search')
button.click()

這里首先驅(qū)動瀏覽器打開淘寶，然后用 find_element_by_id() 方法獲取輸入框，然后用 send_keys() 方法輸入 iPhone 文字，等待一秒后用 clear() 方法清空輸入框，再次調(diào)用 send_keys() 方法輸入 iPad 文字，之后再用 find_element_by_class_name() 方法獲取搜索按鈕，最后調(diào)用 click() 方法完成搜索動作。

通過上面的方法，我們就完成了一些常見節(jié)點的動作操作，更多的操作可以參見官方文檔的交互動作介紹：7. WebDriver API — Selenium Python Bindings 2 documentation。

7. 動作鏈

在上面的實例中，一些交互動作都是針對某個節(jié)點執(zhí)行的。比如，對于輸入框，我們就調(diào)用它的輸入文字和清空文字方法；對于按鈕，就調(diào)用它的點擊方法。其實，還有另外一些操作，它們沒有特定的執(zhí)行對象，比如鼠標(biāo)拖曳、鍵盤按鍵等，這些動作用另一種方式來執(zhí)行，那就是動作鏈。

比如，現(xiàn)在實現(xiàn)一個節(jié)點的拖曳操作，將某個節(jié)點從一處拖曳到另外一處，可以這樣實現(xiàn)：

from selenium import webdriver
from selenium.webdriver import ActionChainsbrowser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
target = browser.find_element_by_css_selector('#droppable')
actions = ActionChains(browser)
actions.drag_and_drop(source, target)
actions.perform()

首先，打開網(wǎng)頁中的一個拖曳實例，然后依次選中要拖曳的節(jié)點和拖曳到的目標(biāo)節(jié)點，接著聲明 ActionChains 對象并將其賦值為 actions 變量，然后通過調(diào)用 actions 變量的 drag_and_drop() 方法，再調(diào)用 perform() 方法執(zhí)行動作，此時就完成了拖曳操作：

以上兩圖分別為在拖曳前和拖曳后的結(jié)果。

更多的動作鏈操作可以參考官方文檔的動作鏈介紹：7. WebDriver API — Selenium Python Bindings 2 documentation。

8. 執(zhí)行 JavaScript

對于某些操作，Selenium API 并沒有提供。比如，下拉進(jìn)度條，它可以直接模擬運行 JavaScript，此時使用 execute_script() 方法即可實現(xiàn)，代碼如下：

from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

這里就利用 execute_script() 方法將進(jìn)度條下拉到最底部，然后彈出 alert 提示框。

所以說有了這個方法，基本上 API 沒有提供的所有功能都可以用執(zhí)行 JavaScript 的方式來實現(xiàn)了。

9. 獲取節(jié)點信息

前面說過，通過 page_source 屬性可以獲取網(wǎng)頁的源代碼，接著就可以使用解析庫（如正則表達(dá)式、Beautiful Soup、pyquery 等）來提取信息了。

不過，既然 Selenium 已經(jīng)提供了選擇節(jié)點的方法，返回的是 WebElement 類型，那么它也有相關(guān)的方法和屬性來直接提取節(jié)點信息，如屬性、文本等。這樣的話，我們就可以不用通過解析源代碼來提取信息了，非常方便。

接下來，就看看通過怎樣的方式來獲取節(jié)點信息吧。

獲取屬性

我們可以使用 get_attribute() 方法來獲取節(jié)點的屬性，但是其前提是先選中這個節(jié)點，示例如下：

from selenium import webdriver
from selenium.webdriver import ActionChainsbrowser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
logo = browser.find_element_by_id('zh-top-link-logo')
print(logo)
print(logo.get_attribute('class'))

運行之后，程序便會驅(qū)動瀏覽器打開知乎頁面，然后獲取知乎的 logo 節(jié)點，最后打印出它的 class。

控制臺的輸出結(jié)果如下：

<selenium.webdriver.remote.webelement.WebElement (session="e08c0f28d7f44d75ccd50df6bb676104", element="0.7236390660048155-1")>
zu-top-link-logo

通過 get_attribute() 方法，然后傳入想要獲取的屬性名，就可以得到它的值了。

獲取文本值

每個 WebElement 節(jié)點都有 text 屬性，直接調(diào)用這個屬性就可以得到節(jié)點內(nèi)部的文本信息，這相當(dāng)于 Beautiful Soup 的 get_text() 方法、pyquery 的 text() 方法，示例如下：

from selenium import webdriverbrowser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text)

這里依然先打開知乎頁面，然后獲取 “提問” 按鈕這個節(jié)點，再將其文本值打印出來。

控制臺的輸出結(jié)果如下：

提問

獲取 ID、位置、標(biāo)簽名、大小

另外，WebElement 節(jié)點還有一些其他屬性，比如 id 屬性可以獲取節(jié)點 id，location 屬性可以獲取該節(jié)點在頁面中的相對位置，tag_name 屬性可以獲取標(biāo)簽名稱，size 屬性可以獲取節(jié)點的大小，也就是寬高，這些屬性有時候還是很有用的。示例如下：

 from selenium import webdriverbrowser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.id)
print(input.location)
print(input.tag_name)
print(input.size)

這里首先獲得 “提問” 按鈕這個節(jié)點，然后調(diào)用其 id、location、tag_name、size 屬性來獲取對應(yīng)的屬性值。

10. 切換 Frame

我們知道網(wǎng)頁中有一種節(jié)點叫作 iframe，也就是子 Frame，相當(dāng)于頁面的子頁面，它的結(jié)構(gòu)和外部網(wǎng)頁的結(jié)構(gòu)完全一致。Selenium 打開頁面后，它默認(rèn)是在父級 Frame 里面操作，而此時如果頁面中還有子 Frame，它是不能獲取到子 Frame 里面的節(jié)點的。這時就需要使用 switch_to.frame() 方法來切換 Frame。示例如下：

import time
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementExceptionbrowser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
try:logo = browser.find_element_by_class_name('logo')
except NoSuchElementException:print('NO LOGO')
browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name('logo')
print(logo)
print(logo.text)

控制臺輸出：

NO LOGO
<selenium.webdriver.remote.webelement.WebElement (session="4bb8ac03ced4ecbdefef03ffdc0e4ccd", element="0.13792611320464965-2")>
RUNOOB.COM

這里還是以前面演示動作鏈操作的網(wǎng)頁為實例，首先通過 switch_to.frame() 方法切換到子 Frame 里面，然后嘗試獲取子 Frame 里的 logo 節(jié)點（這是不能找到的），如果找不到的話，就會拋出 NoSuchElementException 異常，異常被捕捉之后，就會輸出 NO LOGO。接下來，重新切換回父級 Frame，然后再次重新獲取節(jié)點，發(fā)現(xiàn)此時可以成功獲取了。

所以，當(dāng)頁面中包含子 Frame 時，如果想獲取子 Frame 中的節(jié)點，需要先調(diào)用 switch_to.frame() 方法切換到對應(yīng)的 Frame，然后再進(jìn)行操作。

11. 延時等待

在 Selenium 中，get() 方法會在網(wǎng)頁框架加載結(jié)束后結(jié)束執(zhí)行，此時如果獲取 page_source，可能并不是瀏覽器完全加載完成的頁面，如果某些頁面有額外的 Ajax 請求，我們在網(wǎng)頁源代碼中也不一定能成功獲取到。所以，這里需要延時等待一定時間，確保節(jié)點已經(jīng)加載出來。

這里等待的方式有兩種：一種是隱式等待，一種是顯式等待。

隱式等待

當(dāng)使用隱式等待執(zhí)行測試的時候，如果 Selenium 沒有在 DOM 中找到節(jié)點，將繼續(xù)等待，超出設(shè)定時間后，則拋出找不到節(jié)點的異常。換句話說，當(dāng)查找節(jié)點而節(jié)點并沒有立即出現(xiàn)的時候，隱式等待將等待一段時間再查找 DOM，默認(rèn)的時間是 0。示例如下：

from selenium import webdriverbrowser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

在這里我們用 implicitly_wait() 方法實現(xiàn)了隱式等待。

顯式等待

隱式等待的效果其實并沒有那么好，因為我們只規(guī)定了一個固定時間，而頁面的加載時間會受到網(wǎng)絡(luò)條件的影響。

這里還有一種更合適的顯式等待方法，它指定要查找的節(jié)點，然后指定一個最長等待時間。如果在規(guī)定時間內(nèi)加載出來了這個節(jié)點，就返回查找的節(jié)點；如果到了規(guī)定時間依然沒有加載出該節(jié)點，則拋出超時異常。示例如下：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECbrowser = webdriver.Chrome()
browser.get('https://www.taobao.com/')
wait = WebDriverWait(browser, 10)
input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
print(input, button)

這里首先引入 WebDriverWait 這個對象，指定最長等待時間，然后調(diào)用它的 until() 方法，傳入要等待條件 expected_conditions。比如，這里傳入了 presence_of_element_located 這個條件，代表節(jié)點出現(xiàn)的意思，其參數(shù)是節(jié)點的定位元組，也就是 ID 為 q 的節(jié)點搜索框。

這樣可以做到的效果就是，在 10 秒內(nèi)如果 ID 為 q 的節(jié)點（即搜索框）成功加載出來，就返回該節(jié)點；如果超過 10 秒還沒有加載出來，就拋出異常。

對于按鈕，可以更改一下等待條件，比如改為 element_to_be_clickable，也就是可點擊，所以查找按鈕時查找 CSS 選擇器為.btn-search 的按鈕，如果 10 秒內(nèi)它是可點擊的，也就是成功加載出來了，就返回這個按鈕節(jié)點；如果超過 10 秒還不可點擊，也就是沒有加載出來，就拋出異常。

運行代碼，在網(wǎng)速較佳的情況下是可以成功加載出來的。

控制臺的輸出如下：

<selenium.webdriver.remote.webelement.WebElement (session="07dd2fbc2d5b1ce40e82b9754aba8fa8", element="0.5642646294074107-1")>
<selenium.webdriver.remote.webelement.WebElement (session="07dd2fbc2d5b1ce40e82b9754aba8fa8", element="0.5642646294074107-2")>

可以看到，控制臺成功輸出了兩個節(jié)點，它們都是 WebElement 類型。

如果網(wǎng)絡(luò)有問題，10 秒內(nèi)沒有成功加載，那就拋出 TimeoutException 異常，此時控制臺的輸出如下：

TimeoutException Traceback (most recent call last)
<ipython-input-4-f3d73973b223> in <module>()7 browser.get('https://www.taobao.com/')8 wait = WebDriverWait(browser, 10)
----> 9 input = wait.until(EC.presence_of_element_located((By.ID, 'q')))

關(guān)于等待條件，其實還有很多，比如判斷標(biāo)題內(nèi)容，判斷某個節(jié)點內(nèi)是否出現(xiàn)了某文字等。表中列出了所有的等待條件。

等待條件及其含義

等待條件	含義
title_is	標(biāo)題是某內(nèi)容
title_contains	標(biāo)題包含某內(nèi)容
presence_of_element_located	節(jié)點加載出，傳入定位元組，如 (By.ID, 'p')
visibility_of_element_located	節(jié)點可見，傳入定位元組
visibility_of	可見，傳入節(jié)點對象
presence_of_all_elements_located	所有節(jié)點加載出
text_to_be_present_in_element	某個節(jié)點文本包含某文字
text_to_be_present_in_element_value	某個節(jié)點值包含某文字
frame_to_be_available_and_switch_to_it frame	加載并切換
invisibility_of_element_located	節(jié)點不可見
element_to_be_clickable	節(jié)點可點擊
staleness_of	判斷一個節(jié)點是否仍在 DOM，可判斷頁面是否已經(jīng)刷新
element_to_be_selected	節(jié)點可選擇，傳節(jié)點對象
element_located_to_be_selected	節(jié)點可選擇，傳入定位元組
element_selection_state_to_be	傳入節(jié)點對象以及狀態(tài)，相等返回 True，否則返回 False
element_located_selection_state_to_be	傳入定位元組以及狀態(tài)，相等返回 True，否則返回 False
alert_is_present	是否出現(xiàn) Alert

更多詳細(xì)的等待條件的參數(shù)及用法介紹可以參考官方文檔：7. WebDriver API — Selenium Python Bindings 2 documentation。

12. 前進(jìn)后退

平常使用瀏覽器時都有前進(jìn)和后退功能，Selenium 也可以完成這個操作，它使用 back() 方法后退，使用 forward() 方法前進(jìn)。示例如下：

import time
from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.python.org/')
browser.back()
time.sleep(1)
browser.forward()
browser.close()

這里我們連續(xù)訪問 3 個頁面，然后調(diào)用 back() 方法回到第二個頁面，接下來再調(diào)用 forward() 方法又可以前進(jìn)到第三個頁面。

13. Cookies

使用 Selenium，還可以方便地對 Cookies 進(jìn)行操作，例如獲取、添加、刪除 Cookies 等。示例如下：

from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})
print(browser.get_cookies())
browser.delete_all_cookies()
print(browser.get_cookies())

首先，我們訪問了知乎。加載完成后，瀏覽器實際上已經(jīng)生成 Cookies 了。接著，調(diào)用 get_cookies() 方法獲取所有的 Cookies。然后，我們添加一個 Cookie，這里傳入一個字典，有 name、domain 和 value 等內(nèi)容。接下來，再次獲取所有的 Cookies?？梢园l(fā)現(xiàn)，結(jié)果就多了這一項新加的 Cookie。最后，調(diào)用 delete_all_cookies() 方法刪除所有的 Cookies。再重新獲取，發(fā)現(xiàn)結(jié)果就為空了。

控制臺的輸出如下：

[{'secure': False, 'value': '"NGM0ZTM5NDAwMWEyNDQwNDk5ODlkZWY3OTkxY2I0NDY=|1491604091|236e34290a6f407bfbb517888849ea509ac366d0"', 'domain': '.zhihu.com', 'path': '/', 'httpOnly': False, 'name': 'l_cap_id', 'expiry': 1494196091.403418}]
[{'secure': False, 'value': 'germey', 'domain': '.www.zhihu.com', 'path': '/', 'httpOnly': False, 'name': 'name'}, {'secure': False, 'value': '"NGM0ZTM5NDAwMWEyNDQwNDk5ODlkZWY3OTkxY2I0NDY=|1491604091|236e34290a6f407bfbb517888849ea509ac366d0"', 'domain': '.zhihu.com', 'path': '/', 'httpOnly': False, 'name': 'l_cap_id', 'expiry': 1494196091.403418}]
[]

通過以上方法來操作 Cookies 還是非常方便的。

14. 選項卡管理

在訪問網(wǎng)頁的時候，會開啟一個個選項卡。在 Selenium 中，我們也可以對選項卡進(jìn)行操作。示例如下：

import time
from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(1)
browser.switch_to_window(browser.window_handles[0])
browser.get('https://python.org')

控制臺輸出如下：

['CDwindow-4f58e3a7-7167-4587-bedf-9cd8c867f435', 'CDwindow-6e05f076-6d77-453a-a36c-32baacc447df']

首先訪問了百度，然后調(diào)用了 execute_script() 方法，這里傳入 window.open() 這個 JavaScript 語句新開啟一個選項卡。接下來，我們想切換到該選項卡。這里調(diào)用 window_handles 屬性獲取當(dāng)前開啟的所有選項卡，返回的是選項卡的代號列表。要想切換選項卡，只需要調(diào)用 switch_to_window() 方法即可，其中參數(shù)是選項卡的代號。這里我們將第二個選項卡代號傳入，即跳轉(zhuǎn)到第二個選項卡，接下來在第二個選項卡下打開一個新頁面，然后切換回第一個選項卡重新調(diào)用 switch_to_window() 方法，再執(zhí)行其他操作即可。

15. 異常處理

在使用 Selenium 的過程中，難免會遇到一些異常，例如超時、節(jié)點未找到等錯誤，一旦出現(xiàn)此類錯誤，程序便不會繼續(xù)運行了。這里我們可以使用 try except 語句來捕獲各種異常。

首先，演示一下節(jié)點未找到的異常，示例如下：

from selenium import webdriverbrowser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.find_element_by_id('hello')

這里首先打開百度頁面，然后嘗試選擇一個并不存在的節(jié)點，此時就會遇到異常。

運行之后控制臺的輸出如下：

NoSuchElementException Traceback (most recent call last)
<ipython-input-23-978945848a1b> in <module>()3 browser = webdriver.Chrome()4 browser.get('https://www.baidu.com')
----> 5 browser.find_element_by_id('hello')

可以看到，這里拋出了 NoSuchElementException 異常，這通常是節(jié)點未找到的異常。為了防止程序遇到異常而中斷，我們需要捕獲這些異常，示例如下：

from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementExceptionbrowser = webdriver.Chrome()
try:browser.get('https://www.baidu.com')
except TimeoutException:print('Time Out')
try:browser.find_element_by_id('hello')
except NoSuchElementException:print('No Element')
finally:browser.close()

這里我們使用 try except 來捕獲各類異常。比如，我們對 find_element_by_id() 查找節(jié)點的方法捕獲 NoSuchElementException 異常，這樣一旦出現(xiàn)這樣的錯誤，就進(jìn)行異常處理，程序也不會中斷了。

控制臺的輸出如下：

No Element

關(guān)于更多的異常類，可以參考官方文檔：：7. WebDriver API — Selenium Python Bindings 2 documentation。

現(xiàn)在，我們基本對 Selenium 的常規(guī)用法有了大體的了解。使用 Selenium，處理 JavaScript 不再是難事。

查看全文

http://www.risenshineclean.com/news/51678.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

做網(wǎng)站連接數(shù)據(jù)庫怎么顯示圖片免費代理上網(wǎng)網(wǎng)站

爬蟲專欄：http://t.csdnimg.cn/WfCSx

前言

Selenium 的使用

1. 準(zhǔn)備工作

2. 基本使用

3. 聲明瀏覽器對象

4. 訪問頁面

4. 查找節(jié)點

6. 節(jié)點交互

7. 動作鏈

8. 執(zhí)行 JavaScript

9. 獲取節(jié)點信息

10. 切換 Frame

11. 延時等待

12. 前進(jìn)后退

13. Cookies

14. 選項卡管理

15. 異常處理

相關(guān)文章：