玉樹市公司網(wǎng)站建設(shè)seo搜外
網(wǎng)絡(luò)爬蟲—字體反爬
- 一·字體反爬原理
- 二·字體反爬模塊Fonttools
- TTF文件
- 三·FontCreator 14.0.0.2790
- FontCreatorPortable下載與安裝
- 四·實戰(zhàn)演示
- 五·后記
前言:
🏘?🏘?個人簡介:以山河作禮。
🎖?🎖?:Python領(lǐng)域新星創(chuàng)作者,CSDN實力新星認(rèn)證
📝?📝第一篇文章《1.認(rèn)識網(wǎng)絡(luò)爬蟲》獲得全站熱榜第一,python領(lǐng)域熱榜第一
。
🧾 🧾第四篇文章《4.網(wǎng)絡(luò)爬蟲—Post請求(實戰(zhàn)演示)》全站熱榜第八
。
🧾 🧾第八篇文章《8.網(wǎng)絡(luò)爬蟲—正則表達(dá)式RE實戰(zhàn)》全站熱榜第十二
。
🧾 🧾第十篇文章《10.網(wǎng)絡(luò)爬蟲—MongoDB詳講與實戰(zhàn)》全站熱榜第八,領(lǐng)域熱榜第二
🧾 🧾第十三篇文章《13.網(wǎng)絡(luò)爬蟲—多進(jìn)程詳講(實戰(zhàn)演示)》全站熱榜第十二
。
🧾 🧾第十四篇文章《14.網(wǎng)絡(luò)爬蟲—selenium詳講》測試領(lǐng)域熱榜第二十
。
🎁🎁《Python網(wǎng)絡(luò)爬蟲》專欄累計發(fā)表十五篇文章,上榜六篇。歡迎免費訂閱!歡迎大家一起學(xué)習(xí),一起成長!!
💕💕悲索之人烈焰加身,墮落者不可饒恕。永恒燃燒的羽翼,帶我脫離凡間的沉淪。
一·字體反爬原理
🧾 🧾 Python字體反爬原理是指爬蟲在爬取網(wǎng)站數(shù)據(jù)時,遇到了基于字體反爬的防護(hù)措施。這種反爬措施是通過將網(wǎng)站的文字轉(zhuǎn)換成特定的字體文件,然后在頁面上引用該字體文件來顯示文字,使得爬蟲無法直接獲取文字內(nèi)容。
🧾 具體原理如下:
-
網(wǎng)站將需要顯示的文字轉(zhuǎn)換成特定的字體文件,通常是
TrueType
或OpenType
格式的字體文件。 -
網(wǎng)站在頁面上引用該字體文件,并使用CSS樣式將需要顯示的文字的字體設(shè)置為該字體文件。
-
爬蟲在獲取頁面源代碼時,無法直接獲取到需要顯示的文字內(nèi)容,只能獲取到字體文件的引用地址。
-
爬蟲可以通過下載字體文件并解析其中的映射關(guān)系,將字體文件中的編碼與對應(yīng)的文字內(nèi)容進(jìn)行匹配,從而獲取到需要顯示的文字內(nèi)容。
-
為了增加反爬難度,網(wǎng)站通常會對字體文件進(jìn)行加密或混淆,使得爬蟲無法直接解析。
🧾 為了應(yīng)對這種反爬措施,爬蟲可以采用以下方法:
-
下載字體文件并解析映射關(guān)系,從而獲取需要顯示的文字內(nèi)容。
-
使用OCR技術(shù)對圖片中的文字進(jìn)行識別,從而獲取需要顯示的文字內(nèi)容。
-
使用第三方庫或工具對字體文件進(jìn)行解密或混淆,從而獲取需要顯示的文字內(nèi)容。
🔔🔔需要注意的是,字體反爬技術(shù)是一種比較高級的反爬措施,需要爬蟲具備一定的技術(shù)水平才能應(yīng)對。此外,爬蟲在使用字體反爬技術(shù)時也需要注意遵守相關(guān)法律法規(guī)和網(wǎng)站的使用規(guī)定。
二·字體反爬模塊Fonttools
安裝Fonttools
pip install fonttools
如圖所示,表示安裝完成!
FontTools是一個開源的Python庫,用于處理和轉(zhuǎn)換字體文件。它可以讀取和寫入OpenType(OTF)
和TrueType(TTF)
字體文件,以及其他各種字體格式。FontTools可以用于許多用途。
例如:
-
字體編輯
:可以使用FontTools來修改字體文件中的字形、輪廓、度量等屬性。 -
字體轉(zhuǎn)換
:可以將字體文件從一種格式轉(zhuǎn)換為另一種格式,例如將TTF文件轉(zhuǎn)換為OTF文件。 -
字體分析
:可以使用FontTools來分析字體文件中的元數(shù)據(jù)、字符集、度量等屬性,以便于字體設(shè)計和排版。
TTF文件
🧾 🧾TTF文件是TrueType字體文件,是一種字體文件格式,通常用于在計算機(jī)和打印機(jī)上顯示文本。它是一種可縮放的字體,可以在不失真的情況下進(jìn)行縮放。TTF文件通常具有.ttf文件擴(kuò)展名,可以在Windows、Mac和Linux等操作系統(tǒng)中使用。
三·FontCreator 14.0.0.2790
🧾 🧾 FontCreator 14.0.0.2790是一款專業(yè)的字體設(shè)計軟件,由高級字體編輯器、字形插值器、字體轉(zhuǎn)換器等多個工具組成。
- 它可以幫助用戶創(chuàng)建自定義的字體,包括TrueType、OpenType、Web字體等多種格式。
- FontCreator14.0.0.2790提供了一個友好的用戶界面,使得用戶能夠輕松地創(chuàng)建、編輯和修復(fù)字形、設(shè)置字符間距、調(diào)整字體度量等。
- 還支持多語言字體設(shè)計,用戶可以添加和修改各種字符集。
- FontCreator 14.0.0.2790還可以進(jìn)行字體轉(zhuǎn)換,將不同格式的字體文件相互轉(zhuǎn)換,方便用戶在不同場景下使用。
FontCreatorPortable下載與安裝
🎁🎁點擊FontCreator 14.0.0.2790進(jìn)入即可下載
提取碼:a3e8
下載完成后是這樣的:
打開需要查看的ttf文件
如圖所示,被編碼的文字
每一個編碼對應(yīng)一個圖,對,下面這些0,1,2,3,4,5,6,7,這些對不是字體,而是一張圖,所以在后續(xù)解碼操作中,我們需要手動輸入這些數(shù)據(jù)。
四·實戰(zhàn)演示
🎯🎯本次實戰(zhàn)以某招聘網(wǎng)站為目標(biāo),獲取其中數(shù)據(jù),并對字體加密進(jìn)行破解操作
如圖所示:
🎯我們想要爬取的數(shù)據(jù)被加密,我們來一步一步對其進(jìn)行破解。
先按正常方式將數(shù)據(jù)獲取到本地
# coding = utf-8
import crawlesurl = 'https://www.shixiseng.com/app/interns/search/v2'cookies = {'RANGERS_WEB_ID': '7222273943993026082','RANGERS_SAMPLE': '0.797004667731563','adCloseOpen': 'true','utm_source_first': 'PC','Hm_lvt_03465902f492a43ee3eb3543d81eba55': '1681566719,1681626579','adClose': 'true','SXS_XSESSION_ID': '\"2|1:0|10:1681626608|15:SXS_XSESSION_ID|48:ZmIzNDc2MDgtM2MxOS00ZGMzLTg1OWYtZjZmZjliODI3ODBm|e0c74e6e5b304e78720e68feddc1ebc596b09b541b03cab0ad8f542aa7782cf4\"','SXS_XSESSION_ID_EXP': '\"2|1:0|10:1681626608|19:SXS_XSESSION_ID_EXP|16:MTY4MTcxMzAwOA==|f0de0b3a4d7235bb497a86fab85289c792654792ec9114ede5cd4e213074f3ab\"','position': 'pc_search_syss','utm_source': 'PC','utm_campaign': 'PC','Hm_lpvt_03465902f492a43ee3eb3543d81eba55': '1681640297',
}headers = {'authority': 'www.shixiseng.com','accept': 'application/json, text/plain, */*','accept-language': 'zh-CN,zh;q=0.9','cache-control': 'no-cache','content-type': 'application/x-www-form-urlencoded','pragma': 'no-cache','referer': 'https://www.shixiseng.com/interns?page=2&type=intern&keyword=%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98&area&months&days°ree&official&enterprise&salary=-0&publishTime&sortType&city=%E5%85%A8%E5%9B%BD&internExtend','sec-ch-ua': '\"Chromium\";v=\"112\", \"Google Chrome\";v=\"112\", \"Not:A-Brand\";v=\"99\"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '\"Windows\"','sec-fetch-dest': 'empty','sec-fetch-mode': 'cors','sec-fetch-site': 'same-origin','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',
}params = {'build_time': '1681640300905','page': '1','type': 'intern','keyword': '數(shù)據(jù)挖掘','area': '','months': '','days': '','degree': '','official': '','enterprise': '','salary': '-0','publishTime': '','sortType': '','city': '全國','internExtend': '',
}response = crawles.get(url, headers=headers, params=params, cookies=cookies)
response = crawles.get(url, headers=headers, params=params, cookies=cookies)
print(response.text)
for i in response.json['msg']['data']:print(i)
🎯這是我們通過代碼獲取到本地的數(shù)據(jù):
🎯接下來我們需要找到解密用的文件,在這里面找關(guān)于font的文件:
@font-face { font-family: myFont; src: url(/interns/iconfonts/file?rand=0.7027418610803815);}
🎯對獲取的鏈接發(fā)起請求(獲取字體文件,幫助我們對加密文件進(jìn)行解碼)
# font字體文件
# 1,查找相關(guān)鏈接,或者文本
# 2.獲取文件(url) @font-face { font-family: myFont; src: url(/interns/iconfonts/file?rand=0.7027418610803815);}
# 3.對獲取的鏈接發(fā)起請求(獲取字體文件,幫助我們對加密文件進(jìn)行解碼)# 
import requests# 將請求到的數(shù)據(jù)存放到內(nèi)存中,以便其他地方直接使用import io
from fontTools.ttLib import TTFontfont_file_uel = 'https://www.shixiseng.com/interns/iconfonts/file'
# 將請求到的數(shù)據(jù)存放到內(nèi)存中,以便其他地方直接使用
ttf = TTFont(io.BytesIO(requests.get(font_file_uel).content)) # 將獲取的數(shù)據(jù)保存到ttf文件中ttf.save('sxs.ttf')
🎯然后我們得到一個ttf文件,我們使用上面安裝的軟件對該文件進(jìn)行查看。
🎯我們將上述數(shù)據(jù)換成xml來查看,方便我們對其解碼操作:
# font字體文件
# 1,查找相關(guān)鏈接,或者文本
# 2.獲取文件(url) @font-face { font-family: myFont; src: url(/interns/iconfonts/file?rand=0.7027418610803815);}
# 3.對獲取的鏈接發(fā)起請求(獲取字體文件,幫助我們對加密文件進(jìn)行解碼)# 
import requests# 將請求到的數(shù)據(jù)存放到內(nèi)存中,以便其他地方直接使用import io
from fontTools.ttLib import TTFontfont_file_uel = 'https://www.shixiseng.com/interns/iconfonts/file'
# 將請求到的數(shù)據(jù)存放到內(nèi)存中,以便其他地方直接使用
ttf = TTFont(io.BytesIO(requests.get(font_file_uel).content)) # 將獲取的數(shù)據(jù)保存到ttf文件中# ttf.save('sxs.ttf')ttf.saveXML('sxs.xml')
🎯我們的思路如下,將加密字體一步一步轉(zhuǎn)成我們需要的字體,然后再獲取出來:
 -> 0xe283 -> uni30 -> 數(shù)據(jù)索引 -> 文字
 -> 0xe714 -> uni35 -> 7 -> 5
import ref = open('sxs.xml', 'r', encoding='utf-8') # 將數(shù)據(jù)讀取出來
file_data = f.read()
f.close()x = re.findall('<map code="0x(.*?)" name="(.*?)"/>', file_data)
glyph = re.findall('<GlyphID id="(.*?)" name="(.*?)"/>', file_data)glyph_dict = {k: v for v, k in glyph}str_data = '0123456789一師x會四計財場DHLPT聘招工d周L端p年hx設(shè)程二五天tXG前KO網(wǎng)SWcgkosw廣市月個BF告NRVZ作bfjnrvz三互生人政AJEI件M行QUYaeim軟qu銀y聯(lián)'
str_list = [' ', ''] + [i for i in str_data]x_dict = {f'&#x{k}': str_list[int(glyph_dict[v])] for k, v in x}
print(x_dict)
🎯如上圖所示,我們解密了一部分字體來展示如何操作,現(xiàn)在對整個網(wǎng)頁的加密數(shù)據(jù)進(jìn)行字體解密操作,解密后的數(shù)據(jù)如圖所示,我們對有用的數(shù)據(jù)進(jìn)行整理:
🎯整理后的數(shù)據(jù)如下:
🎁🎁完整代碼:
import crawles
import json
import re
import requests
import io
from fontTools.ttLib import TTFont # pip install fonttoolsurl = 'https://www.shixiseng.com/app/interns/search/v2'cookies = {'RANGERS_WEB_ID': '7222273943993026082','RANGERS_SAMPLE': '0.797004667731563','adCloseOpen': 'true','utm_source_first': 'PC','Hm_lvt_03465902f492a43ee3eb3543d81eba55': '1681566719,1681626579','adClose': 'true','SXS_XSESSION_ID': '\"2|1:0|10:1681626608|15:SXS_XSESSION_ID|48:ZmIzNDc2MDgtM2MxOS00ZGMzLTg1OWYtZjZmZjliODI3ODBm|e0c74e6e5b304e78720e68feddc1ebc596b09b541b03cab0ad8f542aa7782cf4\"','SXS_XSESSION_ID_EXP': '\"2|1:0|10:1681626608|19:SXS_XSESSION_ID_EXP|16:MTY4MTcxMzAwOA==|f0de0b3a4d7235bb497a86fab85289c792654792ec9114ede5cd4e213074f3ab\"','position': 'pc_search_syss','utm_source': 'PC','utm_campaign': 'PC','Hm_lpvt_03465902f492a43ee3eb3543d81eba55': '1681640297',
}headers = {'authority': 'www.shixiseng.com','accept': 'application/json, text/plain, */*','accept-language': 'zh-CN,zh;q=0.9','cache-control': 'no-cache','content-type': 'application/x-www-form-urlencoded','pragma': 'no-cache','referer': 'https://www.shixiseng.com/interns?page=2&type=intern&keyword=%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98&area&months&days°ree&official&enterprise&salary=-0&publishTime&sortType&city=%E5%85%A8%E5%9B%BD&internExtend','sec-ch-ua': '\"Chromium\";v=\"112\", \"Google Chrome\";v=\"112\", \"Not:A-Brand\";v=\"99\"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '\"Windows\"','sec-fetch-dest': 'empty','sec-fetch-mode': 'cors','sec-fetch-site': 'same-origin','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',
}params = {'build_time': '1681640300905','page': '1','type': 'intern','keyword': '數(shù)據(jù)挖掘','area': '','months': '','days': '','degree': '','official': '','enterprise': '','salary': '-0','publishTime': '','sortType': '','city': '全國','internExtend': '',
}response = crawles.get(url, headers=headers, params=params, cookies=cookies)
text = response.text
# 存儲ttf文件 用于分析和后續(xù)操作
font_file_uel = 'https://www.shixiseng.com/interns/iconfonts/file'
# 將請求到的數(shù)據(jù)存放到內(nèi)存中,以便其他地方直接使用
ttf = TTFont(io.BytesIO(requests.get(font_file_uel).content))
# ttf.save('sxs.ttf')
ttf.saveXML('sxs.xml')# 讀取xml文件
f = open('sxs.xml', 'r', encoding='utf-8')
file_data = f.read()
f.close()x = re.findall('<map code="0x(.*?)" name="(.*?)"/>', file_data)glyph = re.findall('<GlyphID id="(.*?)" name="(.*?)"/>', file_data)
glyph_dict = {k: v for v, k in glyph}str_data = '0123456789一師x會四計財場DHLPT聘招工d周L端p年hx設(shè)程二五天tXG前KO網(wǎng)SWcgkosw廣市月個BF告NRVZ作bfjnrvz三互生人政AJEI件M行QUYaeim軟qu銀y聯(lián)'
str_list = [' ', ''] + [i for i in str_data]x_dict = {f'&#x{k}': str_list[int(glyph_dict[v])] for k, v in x}
# print(x_dict)# 對整個文本數(shù)據(jù)進(jìn)行替換解碼操作
for k, v in x_dict.items():text = text.replace(k, v)# 將數(shù)據(jù)轉(zhuǎn)化回方便使用的格式
text_1 = json.loads(text)for item in text_1['msg']['data']:max_salary = item['maxsal'] + '元/天' # 最高薪資min_salary = item['minsal'] + '元/天' # 最低薪資city = item['city'] # 所在城市scale = item['scale'] # 公司規(guī)模degree = item['degree'] # 學(xué)歷要求c_tags = item['c_tags'] # 公司標(biāo)簽i_tags = item['i_tags'] # 實習(xí)標(biāo)簽name = item['name'] # 職位名稱industry = item['industry'] # 所屬行業(yè)print('最高薪資:', max_salary)print('最低薪資:', min_salary)print('所在城市:', city)print('公司規(guī)模:', scale)print('學(xué)歷要求:', degree)print('公司標(biāo)簽:', c_tags)print('實習(xí)標(biāo)簽:', i_tags)print('職位名稱:', name)print('所屬行業(yè):', industry)print(text_1)
五·后記
👉👉本專欄所有文章是博主學(xué)習(xí)筆記,僅供學(xué)習(xí)使用,爬蟲只是一種技術(shù),希望學(xué)習(xí)過的人能正確使用它。
博主也會定時一周三更爬蟲相關(guān)技術(shù)更大家系統(tǒng)學(xué)習(xí),如有問題,可以私信我,沒有回,那我可能在上課或者睡覺,寫作不易,感謝大家的支持!!🌹🌹🌹