中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

麻將網(wǎng)站怎么做的衡水seo營銷

麻將網(wǎng)站怎么做的,衡水seo營銷,做淘寶返利網(wǎng)站能掙錢,網(wǎng)站公司怎么做的根據(jù)上一篇文章我們學(xué)會的如何使用請求庫和編寫請求函數(shù),這一次我們來學(xué)習(xí)一下爬蟲常用的小技巧。 自定義Headers Headers是請求的一部分,包含了關(guān)于請求的元信息。我們可以在requests調(diào)用中傳遞一個字典來自定義Headers。代碼如下 import requests h…

根據(jù)上一篇文章我們學(xué)會的如何使用請求庫和編寫請求函數(shù),這一次我們來學(xué)習(xí)一下爬蟲常用的小技巧。

自定義Headers

Headers是請求的一部分,包含了關(guān)于請求的元信息。我們可以在requests調(diào)用中傳遞一個字典來自定義Headers。代碼如下

import requests
headers = {'User-Agent': 'My Custom User Agent','Accept': 'application/json','Authorization': 'Bearer YOUR_ACCESS_TOKEN','Content-Type': 'application/json'
}
res = requests.get(url='https://www.baidu.com/', headers=headers)
print(res.headers)

輸出結(jié)果

如果輸出的代碼看不懂,可以看下面代碼對比圖片讀懂代碼。

這些頭部信息對于開發(fā)者和網(wǎng)絡(luò)管理員來說非常重要,因為它們提供了關(guān)于服務(wù)器響應(yīng)和行為的詳細信息。理解這些頭部可以幫助你更好地處理HTTP請求和響應(yīng),以及優(yōu)化Web應(yīng)用程序的性能和安全性。

{'Accept-Ranges': 'bytes', //指示服務(wù)器支持的請求范圍類型
'Cache-Control': 'no-cache', //指定了響應(yīng)的緩存策略'Connection': 'keep-alive',  //指示連接是否應(yīng)該在請求完成后保持打開狀態(tài)'Content-Length': '227',  //響應(yīng)內(nèi)容的字節(jié)長度
//定義了哪些內(nèi)容可以被加載到頁面上,以及頁面可以與哪些外部資源交互。這個頭部用于提高安全性,防止跨站腳本(XSS)攻擊'Content-Security-Policy': "frame-ancestors 'self' https://chat.baidu.com http://mirror-chat.baidu.com https://fj-chat.baidu.com https://hba-chat.baidu.com https://hbe-chat.baidu.com https://njjs-chat.baidu.com https://nj-chat.baidu.com https://hna-chat.baidu.com https://hnb-chat.baidu.com http://debug.baidu-int.com;", 'Content-Type': 'text/html',  //響應(yīng)內(nèi)容的媒體類型'Date': 'Mon, 15 Apr 2024 09:46:00 GMT',  //響應(yīng)生成的日期和時間'P3p': 'CP=" OTI DSP COR IVA OUR IND COM ", CP=" OTI DSP COR IVA OUR IND COM "',  //公共隱私政策項目(P3P)的頭部,用于定義網(wǎng)站的隱私策略'Pragma': 'no-cache', //與Cache-Control類似,Pragma是一個HTTP/1.0的緩存指令,no-cache表示響應(yīng)不應(yīng)該被緩存。'Server': 'BWS/1.1',  //服務(wù)器軟件的名稱和版本'Set-Cookie': 'BD_NOT_HTTPS=1; path=/; Max-Age=300, BIDUPSID=F36C5CA8D21142BD74B5207C59287DBD; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com, PSTM=1713174360; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com, BAIDUID=F36C5CA8D21142BD2FFC0E76C39C86DD:FG=1; max-age=31536000; expires=Tue, 15-Apr-25 09:46:00 GMT; domain=.baidu.com; path=/; version=1; comment=bd', //設(shè)置一個或多個Cookie,用于維持用戶會話、跟蹤用戶行為等'Traceid': '1713174360037795661812152107203751720698',  //服務(wù)器為請求生成的唯一追蹤ID,用于調(diào)試和日志記錄'X-Ua-Compatible': 'IE=Edge,chrome=1',  //指示服務(wù)器支持的瀏覽器兼容性'X-Xss-Protection': '1;mode=block'} //瀏覽器的安全頭部,用于啟用XSS保護機制
自定義Cookies

Cookies通常用于維持用戶的會話狀態(tài)。我們可以通過cookies參數(shù)requests調(diào)用中傳遞一個RequestsCookieJar對象或者一個字典來自定義Cookies。代碼如下

# 導(dǎo)入requests庫
import requests
# 自定義cookies
cookies = {'cookies_are':'working'}
# 發(fā)起請求
res = requests.get(url='http://httpbin.org/cookies', cookies=cookies)
# 打印響應(yīng)內(nèi)容
print(res.text)

這個代碼主要用來維持會話狀態(tài)

輸出結(jié)果

提示:自定義Cookies在爬蟲中通常用于維持會話(如登錄)、繞過防爬機制、跟蹤用戶行為、處理Cookies限制等。

重定向(allow_redirects)

在HTTP請求中,重定向是指服務(wù)器指示客戶端去訪問另一個URL的響應(yīng)。重定向是一種常見的Web機制,用于URL變更、負載均衡、內(nèi)容移動等場景。

HTTP狀態(tài)碼中,301(Moved Permanently)、302(Found)、303(See Other)、307(Temporary Redirect)和308(Permanent Redirect)都是表示重定向的響應(yīng)碼

在網(wǎng)絡(luò)請求中,我們常常會遇到狀態(tài)碼是3開頭的重定向問題,在Requests中是默認開啟允許重定向的,即遇到重定向時,會自動繼續(xù)訪問,這個行為由llow_redirects參數(shù)來控制。

使用allow_redirects參數(shù)的場景包括:

  • 當你知道URL已經(jīng)更新,并且想要直接訪問新URL時,可以禁用重定向,以獲取重定向響應(yīng)中的新URL。
  • 當你需要分析重定向鏈時,可以通過禁用重定向并檢查response.history來獲取所有的重定向記錄。
  • 當服務(wù)器返回的重定向可能包含敏感信息或不安全的內(nèi)容時,禁用重定向可以防止客戶端無意中訪問這些URL。

通過靈活使用allow_redirects參數(shù),可以更好地控制requests庫的行為,以適應(yīng)不同的網(wǎng)絡(luò)請求場景。

重定向是一種服務(wù)器端行為,它通過將用戶的請求從一個URL重定向到另一個URL來提供更好的用戶體驗和管理網(wǎng)站內(nèi)容。重定向可以有以下作用

  1. 網(wǎng)站更改:當網(wǎng)站管理員決定更改網(wǎng)站的URL結(jié)構(gòu)或移動頁面時,重定向可以確?,F(xiàn)有的鏈接仍然有效,并將用戶正確地引導(dǎo)到新的位置。

  2. 域名重定向:當網(wǎng)站有多個域名時,可以使用重定向?qū)⒂脩粢龑?dǎo)到主要域名,以確保所有流量都指向一個位置。

  3. 防止重復(fù)內(nèi)容:重定向可以確保用戶訪問正確的標準化URL,從而避免搜索引擎索引多個相同內(nèi)容的URL。

  4. 統(tǒng)一資源:對于移動設(shè)備和桌面設(shè)備,可以使用重定向?qū)⒂脩粢龑?dǎo)到適合其設(shè)備的不同版本的網(wǎng)站。

在網(wǎng)絡(luò)編程中,允許重定向可以確??蛻舳四軌蚋S服務(wù)器發(fā)送的重定向指令,從而獲得正確的資源。

簡單代碼如下

#導(dǎo)入requests模塊
import requests
#發(fā)送請求 允許重定向
response = requests.get('http://example.com', allow_redirects=True)
#輸出響應(yīng)內(nèi)容
print(response.url)

注意:重定向(False=關(guān)閉重定向,True=開啟重定向

輸出結(jié)果:

最后一行打印出了響應(yīng)的URL,這對于檢查是否發(fā)生了重定向是很有用的。

重定向有許多操作,這里選用一個簡單的部分,能夠讓大家一眼看懂

禁止證書驗證(verify)

在爬蟲過程中,SSL證書是用于在客戶端(爬蟲)和服務(wù)器之間建立安全通信的重要工具。而需要SSL證書驗證有以下原因:

  1. 數(shù)據(jù)加密: SSL證書確保了客戶端和服務(wù)器之間的數(shù)據(jù)傳輸是加密的。這意味著即使數(shù)據(jù)在傳輸過程中被攔截,攻擊者也無法輕易讀取或修改數(shù)據(jù)內(nèi)容。

  2. 身份驗證: SSL證書還用于驗證服務(wù)器的身份。當爬蟲訪問一個使用SSL證書的服務(wù)器時,它可以檢查證書是否由受信任的證書頒發(fā)機構(gòu)(CA)簽發(fā),以及證書中的信息是否與服務(wù)器聲稱的身份匹配。這有助于防止中間人攻擊和欺詐網(wǎng)站。

  3. 信任和聲譽: 使用有效的SSL證書可以提高網(wǎng)站的信譽和用戶的信任度。對于爬蟲來說,確保與信任的服務(wù)器通信可以提高爬取數(shù)據(jù)的質(zhì)量和安全性。

  4. 遵守法規(guī): 某些法律法規(guī)要求網(wǎng)站和服務(wù)必須使用SSL證書來保護用戶數(shù)據(jù)。作為爬蟲開發(fā)者,遵守這些法規(guī)可以避免潛在的法律問題。

  5. 瀏覽器和庫的要求: 現(xiàn)代瀏覽器和網(wǎng)絡(luò)庫(如requests)默認要求使用SSL證書。如果沒有有效的證書或證書驗證失敗,瀏覽器和庫可能會拒絕連接或發(fā)出警告。

  6. 防止數(shù)據(jù)泄露: SSL證書有助于防止敏感數(shù)據(jù)(如登錄憑據(jù)、個人信息等)在傳輸過程中被竊取。這對于爬取可能包含敏感信息的網(wǎng)站尤為重要。

簡單案例代碼

import requests# 關(guān)閉SSL證書驗證
response = requests.get('https://www.baidu.com/', verify=False)

這個代碼用來關(guān)閉證書驗證,通常情況下,不建議關(guān)閉,除非你信任這個網(wǎng)絡(luò)環(huán)境,否則可能會數(shù)據(jù)泄密或者中間人攻擊。大家自行驗證即可😎(っ °Д °;)っ

輸出結(jié)果

解釋:輸出的信息包含以下內(nèi)容

  1. InsecureRequestWarning: 這是一個警告,由urllib3庫發(fā)出,提示你的HTTPS請求沒有進行證書驗證。在Python 3中,如果你使用urllib3庫進行HTTPS請求,而沒有指定cert_reqs='CERT_REQUIRED'來啟用證書驗證,就會收到這個警告。這是因為沒有證書驗證的HTTPS請求容易受到中間人攻擊(MITM),所以強烈建議啟用證書驗證以保證通信安全。

  2. 警告鏈接: 警告信息中提供了一個鏈接,指向urllib3的官方文檔,其中詳細介紹了如何處理SSL警告和如何配置證書驗證。

  3. HTML內(nèi)容: 這部分是百度首頁的HTML源碼片段。它包含了百度的登錄鏈接、搜索框、導(dǎo)航鏈接以及其他一些頁面元素。這個HTML片段可能是從網(wǎng)絡(luò)請求的響應(yīng)中提取出來的

設(shè)置超時(timeout)

超時時間應(yīng)該根據(jù)目標服務(wù)器的響應(yīng)速度和網(wǎng)絡(luò)狀況來合理設(shè)置。過短的超時時間可能導(dǎo)致不必要的超時異常,而過長的超時時間可能會導(dǎo)致爬蟲效率降低。因此要合理設(shè)置,提高爬蟲效率

import requests
# 設(shè)置超時
requests.get('https://www.baidu.com/', timeout=10)
print('ok')

輸出結(jié)果

這表示爬蟲沒有超時,并成功響應(yīng)信息。

好了今日分享到此一游,各位點個贊,關(guān)注我不迷路

http://www.risenshineclean.com/news/44559.html

相關(guān)文章:

  • 衡陽網(wǎng)站建設(shè)icp備seo優(yōu)化網(wǎng)站推廣全域營銷獲客公司
  • 網(wǎng)站的空間是服務(wù)器嗎營銷網(wǎng)站建設(shè)哪家快
  • 賣手機網(wǎng)站開發(fā)的必要性百度推廣怎么樣才有效果
  • 響應(yīng)式網(wǎng)站設(shè)計案例seo網(wǎng)絡(luò)推廣技術(shù)
  • 專門做中文音譯歌曲的網(wǎng)站新網(wǎng)域名注冊官網(wǎng)
  • 禹城做網(wǎng)站的公司世界大學(xué)排名
  • 上海達安做的無創(chuàng)dna網(wǎng)站煙臺網(wǎng)絡(luò)推廣
  • 寧波論壇建站模板seo收費低
  • 做宣傳手冊的網(wǎng)站前端性能優(yōu)化有哪些方法
  • 長沙3合1網(wǎng)站建設(shè)seo基礎(chǔ)知識包括什么
  • 聊城做網(wǎng)站信息seo搜索規(guī)則
  • wordpress能干什么seo搜索價格
  • 網(wǎng)站優(yōu)化標準微信管理系統(tǒng)登錄
  • 成都網(wǎng)站建設(shè)免費咨詢營銷的方法手段有哪些
  • wordpress 文章結(jié)尾杭州seo網(wǎng)站排名優(yōu)化
  • 描述政府網(wǎng)站網(wǎng)站建設(shè)seo推廣網(wǎng)絡(luò)
  • 淘寶網(wǎng)站怎么做適配seo專員的工作內(nèi)容
  • 商業(yè)網(wǎng)站建設(shè)規(guī)劃范文招商外包
  • 濟南有哪些網(wǎng)站是做家具團購的2023第二波疫情已經(jīng)到來了嗎
  • 衡陽做網(wǎng)站的挖掘愛站網(wǎng)
  • 找什么人做公司網(wǎng)站小小課堂seo自學(xué)網(wǎng)
  • 南寧網(wǎng)站建設(shè)推廣優(yōu)化種子搜索引擎torrentkitty
  • 中國農(nóng)村建設(shè)網(wǎng)站關(guān)于進一步優(yōu)化
  • 網(wǎng)站開發(fā)語言是什么網(wǎng)站制作app免費軟件
  • 吉林省軟環(huán)境建設(shè)辦公室網(wǎng)站百度快速排名點擊器
  • 企業(yè)管理系統(tǒng)項目經(jīng)理招聘seo優(yōu)化排名易下拉效率
  • 中企動力做的網(wǎng)站容易SEO嗎投放廣告的網(wǎng)站
  • 那些網(wǎng)站企業(yè)可以免費展示輕松seo優(yōu)化排名
  • 如何做虛擬幣交易網(wǎng)站外貿(mào)推廣如何做
  • 做經(jīng)營性網(wǎng)站需要哪些東西搜狗站長推送工具