中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

玉樹市公司網(wǎng)站建設(shè)seo搜外

玉樹市公司網(wǎng)站建設(shè),seo搜外,網(wǎng)站域名實名認(rèn)證查詢,文山州住房建設(shè)網(wǎng)站網(wǎng)絡(luò)爬蟲—字體反爬 一字體反爬原理二字體反爬模塊FonttoolsTTF文件 三FontCreator 14.0.0.2790FontCreatorPortable下載與安裝 四實戰(zhàn)演示五后記 前言: 🏘?🏘?個人簡介:以山河作禮。 🎖?🎖?:Python領(lǐng)域…

網(wǎng)絡(luò)爬蟲—字體反爬

  • 一·字體反爬原理
  • 二·字體反爬模塊Fonttools
    • TTF文件
  • 三·FontCreator 14.0.0.2790
    • FontCreatorPortable下載與安裝
  • 四·實戰(zhàn)演示
  • 五·后記

前言
🏘?🏘?個人簡介:以山河作禮。
🎖?🎖?:Python領(lǐng)域新星創(chuàng)作者,CSDN實力新星認(rèn)證
📝?📝第一篇文章《1.認(rèn)識網(wǎng)絡(luò)爬蟲》獲得全站熱榜第一,python領(lǐng)域熱榜第一。
🧾 🧾第四篇文章《4.網(wǎng)絡(luò)爬蟲—Post請求(實戰(zhàn)演示)》全站熱榜第八。
🧾 🧾第八篇文章《8.網(wǎng)絡(luò)爬蟲—正則表達(dá)式RE實戰(zhàn)》全站熱榜第十二
🧾 🧾第十篇文章《10.網(wǎng)絡(luò)爬蟲—MongoDB詳講與實戰(zhàn)》全站熱榜第八,領(lǐng)域熱榜第二
🧾 🧾第十三篇文章《13.網(wǎng)絡(luò)爬蟲—多進(jìn)程詳講(實戰(zhàn)演示)》全站熱榜第十二。
🧾 🧾第十四篇文章《14.網(wǎng)絡(luò)爬蟲—selenium詳講》測試領(lǐng)域熱榜第二十。
🎁🎁《Python網(wǎng)絡(luò)爬蟲》專欄累計發(fā)表十五篇文章,上榜六篇。歡迎免費訂閱!歡迎大家一起學(xué)習(xí),一起成長!!
💕💕悲索之人烈焰加身,墮落者不可饒恕。永恒燃燒的羽翼,帶我脫離凡間的沉淪。


一·字體反爬原理

🧾 🧾 Python字體反爬原理是指爬蟲在爬取網(wǎng)站數(shù)據(jù)時,遇到了基于字體反爬的防護(hù)措施。這種反爬措施是通過將網(wǎng)站的文字轉(zhuǎn)換成特定的字體文件,然后在頁面上引用該字體文件來顯示文字,使得爬蟲無法直接獲取文字內(nèi)容。

🧾 具體原理如下:

  1. 網(wǎng)站將需要顯示的文字轉(zhuǎn)換成特定的字體文件,通常是TrueTypeOpenType格式的字體文件。

  2. 網(wǎng)站在頁面上引用該字體文件,并使用CSS樣式將需要顯示的文字的字體設(shè)置為該字體文件。

  3. 爬蟲在獲取頁面源代碼時,無法直接獲取到需要顯示的文字內(nèi)容,只能獲取到字體文件的引用地址。

  4. 爬蟲可以通過下載字體文件并解析其中的映射關(guān)系,將字體文件中的編碼與對應(yīng)的文字內(nèi)容進(jìn)行匹配,從而獲取到需要顯示的文字內(nèi)容。

  5. 為了增加反爬難度,網(wǎng)站通常會對字體文件進(jìn)行加密或混淆,使得爬蟲無法直接解析。

🧾 為了應(yīng)對這種反爬措施,爬蟲可以采用以下方法:

  1. 下載字體文件并解析映射關(guān)系,從而獲取需要顯示的文字內(nèi)容。

  2. 使用OCR技術(shù)對圖片中的文字進(jìn)行識別,從而獲取需要顯示的文字內(nèi)容。

  3. 使用第三方庫或工具對字體文件進(jìn)行解密或混淆,從而獲取需要顯示的文字內(nèi)容。

🔔🔔需要注意的是,字體反爬技術(shù)是一種比較高級的反爬措施,需要爬蟲具備一定的技術(shù)水平才能應(yīng)對。此外,爬蟲在使用字體反爬技術(shù)時也需要注意遵守相關(guān)法律法規(guī)和網(wǎng)站的使用規(guī)定。

二·字體反爬模塊Fonttools

安裝Fonttools

pip install fonttools

如圖所示,表示安裝完成!
在這里插入圖片描述

FontTools是一個開源的Python庫,用于處理和轉(zhuǎn)換字體文件。它可以讀取和寫入OpenType(OTF)TrueType(TTF)字體文件,以及其他各種字體格式。FontTools可以用于許多用途。
例如:

  1. 字體編輯:可以使用FontTools來修改字體文件中的字形、輪廓、度量等屬性。

  2. 字體轉(zhuǎn)換:可以將字體文件從一種格式轉(zhuǎn)換為另一種格式,例如將TTF文件轉(zhuǎn)換為OTF文件。

  3. 字體分析:可以使用FontTools來分析字體文件中的元數(shù)據(jù)、字符集、度量等屬性,以便于字體設(shè)計和排版。

TTF文件

🧾 🧾TTF文件是TrueType字體文件,是一種字體文件格式,通常用于在計算機(jī)和打印機(jī)上顯示文本。它是一種可縮放的字體,可以在不失真的情況下進(jìn)行縮放。TTF文件通常具有.ttf文件擴(kuò)展名,可以在Windows、Mac和Linux等操作系統(tǒng)中使用。

三·FontCreator 14.0.0.2790

🧾 🧾 FontCreator 14.0.0.2790是一款專業(yè)的字體設(shè)計軟件,由高級字體編輯器、字形插值器、字體轉(zhuǎn)換器等多個工具組成。

  • 它可以幫助用戶創(chuàng)建自定義的字體,包括TrueType、OpenType、Web字體等多種格式。
  • FontCreator14.0.0.2790提供了一個友好的用戶界面,使得用戶能夠輕松地創(chuàng)建、編輯和修復(fù)字形、設(shè)置字符間距、調(diào)整字體度量等。
  • 還支持多語言字體設(shè)計,用戶可以添加和修改各種字符集。
  • FontCreator 14.0.0.2790還可以進(jìn)行字體轉(zhuǎn)換,將不同格式的字體文件相互轉(zhuǎn)換,方便用戶在不同場景下使用。

FontCreatorPortable下載與安裝

在這里插入圖片描述

🎁🎁點擊FontCreator 14.0.0.2790進(jìn)入即可下載
提取碼:a3e8

下載完成后是這樣的:
在這里插入圖片描述
打開需要查看的ttf文件
如圖所示,被編碼的文字

在這里插入圖片描述
每一個編碼對應(yīng)一個圖,對,下面這些0,1,2,3,4,5,6,7,這些對不是字體,而是一張圖,所以在后續(xù)解碼操作中,我們需要手動輸入這些數(shù)據(jù)。
在這里插入圖片描述
在這里插入圖片描述

四·實戰(zhàn)演示

🎯🎯本次實戰(zhàn)以某招聘網(wǎng)站為目標(biāo),獲取其中數(shù)據(jù),并對字體加密進(jìn)行破解操作
如圖所示:
在這里插入圖片描述
🎯我們想要爬取的數(shù)據(jù)被加密,我們來一步一步對其進(jìn)行破解。
先按正常方式將數(shù)據(jù)獲取到本地

在這里插入圖片描述

# coding = utf-8
import crawlesurl = 'https://www.shixiseng.com/app/interns/search/v2'cookies = {'RANGERS_WEB_ID': '7222273943993026082','RANGERS_SAMPLE': '0.797004667731563','adCloseOpen': 'true','utm_source_first': 'PC','Hm_lvt_03465902f492a43ee3eb3543d81eba55': '1681566719,1681626579','adClose': 'true','SXS_XSESSION_ID': '\"2|1:0|10:1681626608|15:SXS_XSESSION_ID|48:ZmIzNDc2MDgtM2MxOS00ZGMzLTg1OWYtZjZmZjliODI3ODBm|e0c74e6e5b304e78720e68feddc1ebc596b09b541b03cab0ad8f542aa7782cf4\"','SXS_XSESSION_ID_EXP': '\"2|1:0|10:1681626608|19:SXS_XSESSION_ID_EXP|16:MTY4MTcxMzAwOA==|f0de0b3a4d7235bb497a86fab85289c792654792ec9114ede5cd4e213074f3ab\"','position': 'pc_search_syss','utm_source': 'PC','utm_campaign': 'PC','Hm_lpvt_03465902f492a43ee3eb3543d81eba55': '1681640297',
}headers = {'authority': 'www.shixiseng.com','accept': 'application/json, text/plain, */*','accept-language': 'zh-CN,zh;q=0.9','cache-control': 'no-cache','content-type': 'application/x-www-form-urlencoded','pragma': 'no-cache','referer': 'https://www.shixiseng.com/interns?page=2&type=intern&keyword=%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98&area&months&days&degree&official&enterprise&salary=-0&publishTime&sortType&city=%E5%85%A8%E5%9B%BD&internExtend','sec-ch-ua': '\"Chromium\";v=\"112\", \"Google Chrome\";v=\"112\", \"Not:A-Brand\";v=\"99\"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '\"Windows\"','sec-fetch-dest': 'empty','sec-fetch-mode': 'cors','sec-fetch-site': 'same-origin','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',
}params = {'build_time': '1681640300905','page': '1','type': 'intern','keyword': '數(shù)據(jù)挖掘','area': '','months': '','days': '','degree': '','official': '','enterprise': '','salary': '-0','publishTime': '','sortType': '','city': '全國','internExtend': '',
}response = crawles.get(url, headers=headers, params=params, cookies=cookies)
response = crawles.get(url, headers=headers, params=params, cookies=cookies)
print(response.text)
for i in response.json['msg']['data']:print(i)

🎯這是我們通過代碼獲取到本地的數(shù)據(jù):
在這里插入圖片描述
🎯接下來我們需要找到解密用的文件,在這里面找關(guān)于font的文件:
)

 @font-face {    font-family: myFont;    src: url(/interns/iconfonts/file?rand=0.7027418610803815);}

🎯對獲取的鏈接發(fā)起請求(獲取字體文件,幫助我們對加密文件進(jìn)行解碼)

# font字體文件
# 1,查找相關(guān)鏈接,或者文本
# 2.獲取文件(url) @font-face {    font-family: myFont;    src: url(/interns/iconfonts/file?rand=0.7027418610803815);}
# 3.對獲取的鏈接發(fā)起請求(獲取字體文件,幫助我們對加密文件進(jìn)行解碼)# &#xee6f&#xe159&#xe159
import requests# 將請求到的數(shù)據(jù)存放到內(nèi)存中,以便其他地方直接使用import io
from fontTools.ttLib import TTFontfont_file_uel = 'https://www.shixiseng.com/interns/iconfonts/file'
# 將請求到的數(shù)據(jù)存放到內(nèi)存中,以便其他地方直接使用
ttf = TTFont(io.BytesIO(requests.get(font_file_uel).content))  # 將獲取的數(shù)據(jù)保存到ttf文件中ttf.save('sxs.ttf')

🎯然后我們得到一個ttf文件,我們使用上面安裝的軟件對該文件進(jìn)行查看。
在這里插入圖片描述
🎯我們將上述數(shù)據(jù)換成xml來查看,方便我們對其解碼操作:

# font字體文件
# 1,查找相關(guān)鏈接,或者文本
# 2.獲取文件(url) @font-face {    font-family: myFont;    src: url(/interns/iconfonts/file?rand=0.7027418610803815);}
# 3.對獲取的鏈接發(fā)起請求(獲取字體文件,幫助我們對加密文件進(jìn)行解碼)# &#xee6f&#xe159&#xe159
import requests# 將請求到的數(shù)據(jù)存放到內(nèi)存中,以便其他地方直接使用import io
from fontTools.ttLib import TTFontfont_file_uel = 'https://www.shixiseng.com/interns/iconfonts/file'
# 將請求到的數(shù)據(jù)存放到內(nèi)存中,以便其他地方直接使用
ttf = TTFont(io.BytesIO(requests.get(font_file_uel).content))  # 將獲取的數(shù)據(jù)保存到ttf文件中# ttf.save('sxs.ttf')ttf.saveXML('sxs.xml')

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

🎯我們的思路如下,將加密字體一步一步轉(zhuǎn)成我們需要的字體,然后再獲取出來:
&#xe283 -> 0xe283 -> uni30 -> 數(shù)據(jù)索引 -> 文字
&#xe714 -> 0xe714 -> uni35 -> 7 -> 5

import ref = open('sxs.xml', 'r', encoding='utf-8')  # 將數(shù)據(jù)讀取出來
file_data = f.read()
f.close()x = re.findall('<map code="0x(.*?)" name="(.*?)"/>', file_data)
glyph = re.findall('<GlyphID id="(.*?)" name="(.*?)"/>', file_data)glyph_dict = {k: v for v, k in glyph}str_data = '0123456789一師x會四計財場DHLPT聘招工d周L端p年hx設(shè)程二五天tXG前KO網(wǎng)SWcgkosw廣市月個BF告NRVZ作bfjnrvz三互生人政AJEI件M行QUYaeim軟qu銀y聯(lián)'
str_list = [' ', ''] + [i for i in str_data]x_dict = {f'&#x{k}': str_list[int(glyph_dict[v])] for k, v in x}
print(x_dict)

在這里插入圖片描述
在這里插入圖片描述
🎯如上圖所示,我們解密了一部分字體來展示如何操作,現(xiàn)在對整個網(wǎng)頁的加密數(shù)據(jù)進(jìn)行字體解密操作,解密后的數(shù)據(jù)如圖所示,我們對有用的數(shù)據(jù)進(jìn)行整理:
在這里插入圖片描述
🎯整理后的數(shù)據(jù)如下
在這里插入圖片描述

🎁🎁完整代碼:

import crawles
import json
import re
import requests
import io
from fontTools.ttLib import TTFont  # pip install fonttoolsurl = 'https://www.shixiseng.com/app/interns/search/v2'cookies = {'RANGERS_WEB_ID': '7222273943993026082','RANGERS_SAMPLE': '0.797004667731563','adCloseOpen': 'true','utm_source_first': 'PC','Hm_lvt_03465902f492a43ee3eb3543d81eba55': '1681566719,1681626579','adClose': 'true','SXS_XSESSION_ID': '\"2|1:0|10:1681626608|15:SXS_XSESSION_ID|48:ZmIzNDc2MDgtM2MxOS00ZGMzLTg1OWYtZjZmZjliODI3ODBm|e0c74e6e5b304e78720e68feddc1ebc596b09b541b03cab0ad8f542aa7782cf4\"','SXS_XSESSION_ID_EXP': '\"2|1:0|10:1681626608|19:SXS_XSESSION_ID_EXP|16:MTY4MTcxMzAwOA==|f0de0b3a4d7235bb497a86fab85289c792654792ec9114ede5cd4e213074f3ab\"','position': 'pc_search_syss','utm_source': 'PC','utm_campaign': 'PC','Hm_lpvt_03465902f492a43ee3eb3543d81eba55': '1681640297',
}headers = {'authority': 'www.shixiseng.com','accept': 'application/json, text/plain, */*','accept-language': 'zh-CN,zh;q=0.9','cache-control': 'no-cache','content-type': 'application/x-www-form-urlencoded','pragma': 'no-cache','referer': 'https://www.shixiseng.com/interns?page=2&type=intern&keyword=%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98&area&months&days&degree&official&enterprise&salary=-0&publishTime&sortType&city=%E5%85%A8%E5%9B%BD&internExtend','sec-ch-ua': '\"Chromium\";v=\"112\", \"Google Chrome\";v=\"112\", \"Not:A-Brand\";v=\"99\"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '\"Windows\"','sec-fetch-dest': 'empty','sec-fetch-mode': 'cors','sec-fetch-site': 'same-origin','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',
}params = {'build_time': '1681640300905','page': '1','type': 'intern','keyword': '數(shù)據(jù)挖掘','area': '','months': '','days': '','degree': '','official': '','enterprise': '','salary': '-0','publishTime': '','sortType': '','city': '全國','internExtend': '',
}response = crawles.get(url, headers=headers, params=params, cookies=cookies)
text = response.text
# 存儲ttf文件 用于分析和后續(xù)操作
font_file_uel = 'https://www.shixiseng.com/interns/iconfonts/file'
# 將請求到的數(shù)據(jù)存放到內(nèi)存中,以便其他地方直接使用
ttf = TTFont(io.BytesIO(requests.get(font_file_uel).content))
# ttf.save('sxs.ttf')
ttf.saveXML('sxs.xml')# 讀取xml文件
f = open('sxs.xml', 'r', encoding='utf-8')
file_data = f.read()
f.close()x = re.findall('<map code="0x(.*?)" name="(.*?)"/>', file_data)glyph = re.findall('<GlyphID id="(.*?)" name="(.*?)"/>', file_data)
glyph_dict = {k: v for v, k in glyph}str_data = '0123456789一師x會四計財場DHLPT聘招工d周L端p年hx設(shè)程二五天tXG前KO網(wǎng)SWcgkosw廣市月個BF告NRVZ作bfjnrvz三互生人政AJEI件M行QUYaeim軟qu銀y聯(lián)'
str_list = [' ', ''] + [i for i in str_data]x_dict = {f'&#x{k}': str_list[int(glyph_dict[v])] for k, v in x}
# print(x_dict)# 對整個文本數(shù)據(jù)進(jìn)行替換解碼操作
for k, v in x_dict.items():text = text.replace(k, v)# 將數(shù)據(jù)轉(zhuǎn)化回方便使用的格式
text_1 = json.loads(text)for item in text_1['msg']['data']:max_salary = item['maxsal'] + '元/天'  # 最高薪資min_salary = item['minsal'] + '元/天'  # 最低薪資city = item['city']  # 所在城市scale = item['scale']  # 公司規(guī)模degree = item['degree']  # 學(xué)歷要求c_tags = item['c_tags']  # 公司標(biāo)簽i_tags = item['i_tags']  # 實習(xí)標(biāo)簽name = item['name']  # 職位名稱industry = item['industry']  # 所屬行業(yè)print('最高薪資:', max_salary)print('最低薪資:', min_salary)print('所在城市:', city)print('公司規(guī)模:', scale)print('學(xué)歷要求:', degree)print('公司標(biāo)簽:', c_tags)print('實習(xí)標(biāo)簽:', i_tags)print('職位名稱:', name)print('所屬行業(yè):', industry)print(text_1)

五·后記

👉👉本專欄所有文章是博主學(xué)習(xí)筆記,僅供學(xué)習(xí)使用,爬蟲只是一種技術(shù),希望學(xué)習(xí)過的人能正確使用它。
博主也會定時一周三更爬蟲相關(guān)技術(shù)更大家系統(tǒng)學(xué)習(xí),如有問題,可以私信我,沒有回,那我可能在上課或者睡覺,寫作不易,感謝大家的支持!!🌹🌹🌹

http://www.risenshineclean.com/news/44346.html

相關(guān)文章:

  • 網(wǎng)站的原型怎么做百度搜索競價排名
  • 網(wǎng)站開發(fā)目錄結(jié)構(gòu)百度首頁排名怎么做到
  • 做ppt模板網(wǎng)站有哪些網(wǎng)站統(tǒng)計
  • 做自己網(wǎng)站彩票免費站長工具
  • 寶安有效的網(wǎng)站制作站長域名查詢工具
  • python源碼分享網(wǎng)站百度客服24小時人工服務(wù)
  • wordpress消息系統(tǒng)滕州網(wǎng)站建設(shè)優(yōu)化
  • 淘寶開店網(wǎng)站怎么做網(wǎng)絡(luò)稿件投稿平臺
  • 可以做照片書的網(wǎng)站百度推廣入口
  • next 主題wordpress谷歌seo招聘
  • 用內(nèi)網(wǎng)穿透做網(wǎng)站可以被收錄嗎淘寶關(guān)鍵詞搜索工具
  • 懷柔網(wǎng)站制作煙臺seo網(wǎng)絡(luò)推廣
  • 淄博 網(wǎng)站建設(shè)免費網(wǎng)站在線客服系統(tǒng)源碼
  • 貴州住房和城鄉(xiāng)建設(shè)部網(wǎng)站官網(wǎng)阿里關(guān)鍵詞排名查詢
  • 德升武漢網(wǎng)站建設(shè)推廣哪個網(wǎng)站好
  • 談?wù)劸W(wǎng)站的開發(fā)流程長沙網(wǎng)站優(yōu)化seo
  • 網(wǎng)站建設(shè) 書籍下載廣告推廣方案怎么寫
  • 做一個網(wǎng)站人員seo運營是什么
  • 深圳鹽田建設(shè)交易中心網(wǎng)站什么叫軟文
  • wwe中文官網(wǎng)站網(wǎng)站一級域名和二級域名區(qū)別
  • 廣州行業(yè)網(wǎng)站建設(shè)武漢seo公司出 名
  • 開發(fā)一個企業(yè)網(wǎng)站需要多少錢百度認(rèn)證服務(wù)平臺
  • 車牌照損壞在網(wǎng)站做的能用嗎吉林seo外包
  • 網(wǎng)站建設(shè)成本價長沙免費建站網(wǎng)絡(luò)營銷
  • 輿情監(jiān)測系統(tǒng)永久免費seo整站優(yōu)化哪家專業(yè)
  • 河南網(wǎng)絡(luò)推廣那家好煙臺seo快速排名
  • 做企業(yè)網(wǎng)站開發(fā)哪家好網(wǎng)絡(luò)推廣工作室
  • 怎么用vps搭建網(wǎng)站無錫百度信息流
  • 成都網(wǎng)站開發(fā)價格沈陽seo整站優(yōu)化
  • 連云港做網(wǎng)站公司哪家好推廣文案