購(gòu)物網(wǎng)站開(kāi)發(fā)實(shí)戰(zhàn)有創(chuàng)意的網(wǎng)絡(luò)營(yíng)銷案例
目錄
- 簡(jiǎn)介
- 首次用戶
- 技術(shù)特點(diǎn)
- 競(jìng)品和相關(guān)作品
- 進(jìn)一步閱讀
簡(jiǎn)介
trafilatura 是一個(gè)用于從網(wǎng)頁(yè)上提取文本的命令行工具和 python 包:
- 提供網(wǎng)絡(luò)爬蟲、下載、抓取以及提取主要文本、元數(shù)據(jù)和評(píng)論等功能
- 可幫助網(wǎng)站導(dǎo)航和從站點(diǎn)地圖和提要中提取鏈接
- 無(wú)需數(shù)據(jù)庫(kù),輸出即可轉(zhuǎn)換為各種常用格式(txt,csv,json,xml,xmltei)
- 可用于搜索引擎優(yōu)化
首次用戶
-
使用
x env use trafilatura
即可自動(dòng)下載并使用- 在終端運(yùn)行
eval "$(curl https://get.x-cmd.com)"
即可完成 x 命令安裝, 詳情參考 x-cmd 官網(wǎng)
- 在終端運(yùn)行
-
x-cmd 提供1分鐘教程,其中包含了 trafilatura 命令常用功能的 demo 示例,可以幫你快速上手 trafilatura 。
-
使用案例:
# 安裝 trafilatura x env use trafilatura# 提取指定網(wǎng)頁(yè)的主要內(nèi)容 trafilatura -u "https://www.x-cmd.com/start"# 使用站點(diǎn)地圖抓取 x-cmd 關(guān)于 7za 的網(wǎng)站 trafilatura --sitemap "https://www.x-cmd.com" --list | grep 7za > list.txt# 批量處理 URL 列表,并存儲(chǔ)結(jié)果到目錄中 trafilatura -i list.txt -o txtfiles# 優(yōu)化 bing 搜索結(jié)果 trafilatura --links --xml -u "https://www.bing.com/search?q=gitea"
技術(shù)特點(diǎn)
- 穩(wěn)健高效的提取:
- 除了可以提取主要文本之外,還可以提取元數(shù)據(jù)(標(biāo)題、作者、日期、網(wǎng)站名稱、類別和標(biāo)簽),結(jié)構(gòu)化信息(段落、標(biāo)題、列表、引號(hào)、代碼、換行符、行內(nèi)文本格式)
- 從原始 HTML 轉(zhuǎn)換為關(guān)鍵部分,去除由重復(fù)出現(xiàn)的元素(頁(yè)眉和頁(yè)腳、廣告、鏈接/博客等)組成的噪音
- 支持 URL 管理(黑名單、過(guò)濾和重復(fù)數(shù)據(jù)刪除)
- 支持可選附加組件:
- 對(duì)提取內(nèi)容進(jìn)行語(yǔ)言檢測(cè)
- 圖形用戶界面 (GUI)
- 速度優(yōu)化
- 更加高效、準(zhǔn)確。從官方給出的評(píng)估和替代方案的數(shù)據(jù)來(lái)看,該工具的性能明顯優(yōu)于其他開(kāi)源解決方案。
競(jìng)品和相關(guān)作品
- goose3:用 Java 編寫的文章提取器。
- readabilipy:Python 中的簡(jiǎn)單 HTML 內(nèi)容提取器。
- news-please:是一個(gè)開(kāi)源、易于使用的新聞爬蟲,可以從幾乎所有新聞網(wǎng)站中提取結(jié)構(gòu)化信息。
進(jìn)一步閱讀
- trafilatura 源代碼 - trafilatura 項(xiàng)目的源代碼托管在 GitHub,你可以在這里找到最新版本的 trafilatura 和參與社區(qū)貢獻(xiàn)。
- trafilatura 官網(wǎng) - 提供了非常豐富的使用案例和技術(shù)分析文檔。
- 使用 Trafilatura 進(jìn)行文本抓取 - 該文章介紹了如何使用 trafilatura 快速提取網(wǎng)頁(yè)問(wèn)題。
X-CMD 官網(wǎng)
x-cmd-pkg
x-cmd-1min