中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

購物網(wǎng)站開發(fā)實戰(zhàn)微信社群營銷推廣方案

購物網(wǎng)站開發(fā)實戰(zhàn),微信社群營銷推廣方案,在線設(shè)計平臺網(wǎng)站,制作軟件的軟件目錄 簡介首次用戶技術(shù)特點競品和相關(guān)作品進(jìn)一步閱讀 簡介 trafilatura 是一個用于從網(wǎng)頁上提取文本的命令行工具和 python 包: 提供網(wǎng)絡(luò)爬蟲、下載、抓取以及提取主要文本、元數(shù)據(jù)和評論等功能可幫助網(wǎng)站導(dǎo)航和從站點地圖和提要中提取鏈接無需數(shù)據(jù)庫,輸出即可轉(zhuǎn)換…

目錄

    • 簡介
    • 首次用戶
    • 技術(shù)特點
    • 競品和相關(guān)作品
    • 進(jìn)一步閱讀

簡介

trafilatura 是一個用于從網(wǎng)頁上提取文本的命令行工具和 python 包:

  1. 提供網(wǎng)絡(luò)爬蟲、下載、抓取以及提取主要文本、元數(shù)據(jù)和評論等功能
  2. 可幫助網(wǎng)站導(dǎo)航和從站點地圖和提要中提取鏈接
  3. 無需數(shù)據(jù)庫,輸出即可轉(zhuǎn)換為各種常用格式(txt,csv,json,xml,xmltei)
  4. 可用于搜索引擎優(yōu)化

首次用戶

  1. 使用 x env use trafilatura 即可自動下載并使用

    • 在終端運行 eval "$(curl https://get.x-cmd.com)" 即可完成 x 命令安裝, 詳情參考 x-cmd 官網(wǎng)
  2. x-cmd 提供1分鐘教程,其中包含了 trafilatura 命令常用功能的 demo 示例,可以幫你快速上手 trafilatura 。

  3. 使用案例

    trafilatura-1min-cn

    # 安裝 trafilatura
    x env use trafilatura# 提取指定網(wǎng)頁的主要內(nèi)容
    trafilatura -u "https://www.x-cmd.com/start"# 使用站點地圖抓取 x-cmd 關(guān)于 7za 的網(wǎng)站
    trafilatura --sitemap "https://www.x-cmd.com" --list | grep 7za > list.txt# 批量處理 URL 列表,并存儲結(jié)果到目錄中
    trafilatura -i list.txt -o txtfiles# 優(yōu)化 bing 搜索結(jié)果
    trafilatura --links --xml -u "https://www.bing.com/search?q=gitea"
    

技術(shù)特點

  1. 穩(wěn)健高效的提取:
    1. 除了可以提取主要文本之外,還可以提取元數(shù)據(jù)(標(biāo)題、作者、日期、網(wǎng)站名稱、類別和標(biāo)簽),結(jié)構(gòu)化信息(段落、標(biāo)題、列表、引號、代碼、換行符、行內(nèi)文本格式)
    2. 從原始 HTML 轉(zhuǎn)換為關(guān)鍵部分,去除由重復(fù)出現(xiàn)的元素(頁眉和頁腳、廣告、鏈接/博客等)組成的噪音
  2. 支持 URL 管理(黑名單、過濾和重復(fù)數(shù)據(jù)刪除)
  3. 支持可選附加組件:
    1. 對提取內(nèi)容進(jìn)行語言檢測
    2. 圖形用戶界面 (GUI)
    3. 速度優(yōu)化
  4. 更加高效、準(zhǔn)確。從官方給出的評估和替代方案的數(shù)據(jù)來看,該工具的性能明顯優(yōu)于其他開源解決方案。

競品和相關(guān)作品

  1. goose3:用 Java 編寫的文章提取器。
  2. readabilipy:Python 中的簡單 HTML 內(nèi)容提取器。
  3. news-please:是一個開源、易于使用的新聞爬蟲,可以從幾乎所有新聞網(wǎng)站中提取結(jié)構(gòu)化信息。

進(jìn)一步閱讀

  • trafilatura 源代碼 - trafilatura 項目的源代碼托管在 GitHub,你可以在這里找到最新版本的 trafilatura 和參與社區(qū)貢獻(xiàn)。
  • trafilatura 官網(wǎng) - 提供了非常豐富的使用案例和技術(shù)分析文檔。
  • 使用 Trafilatura 進(jìn)行文本抓取 - 該文章介紹了如何使用 trafilatura 快速提取網(wǎng)頁問題。

X-CMD 官網(wǎng)

  • x-cmd-pkg

  • x-cmd-1min

http://www.risenshineclean.com/news/52078.html

相關(guān)文章:

  • 網(wǎng)站做301跳轉(zhuǎn)的作用百度關(guān)鍵詞收錄
  • 發(fā)布asp.net網(wǎng)站到虛擬主機(jī)口碑營銷的案例及分析
  • 西安市十大it培訓(xùn)機(jī)構(gòu)北京網(wǎng)站優(yōu)化外包
  • 織夢b2b網(wǎng)站模板貴州seo推廣
  • rap做詞網(wǎng)站晉城seo
  • 泰州做網(wǎng)站哪家好站長工具whois查詢
  • 網(wǎng)站開發(fā)流程包括微信推廣朋友圈廣告
  • 鄭州企業(yè)網(wǎng)站優(yōu)化排名濟(jì)南seo的排名優(yōu)化
  • 下載深圳app長沙官網(wǎng)seo技巧
  • 長春網(wǎng)站建設(shè)SEO優(yōu)化營銷網(wǎng)址大全導(dǎo)航
  • 漢中建網(wǎng)站整合營銷策略
  • 社交網(wǎng)站備案廣告sem是什么意思
  • 做h5頁面的網(wǎng)站網(wǎng)絡(luò)推廣外包公司
  • 湖南省最新疫情最新政策神馬seo服務(wù)
  • 上海哪家公司可以做網(wǎng)站怎樣讓自己的網(wǎng)站排名靠前
  • 江蘇網(wǎng)站開發(fā)建設(shè)百度客服在線咨詢?nèi)斯し?wù)
  • 網(wǎng)站打不開了什么原因廣東短視頻seo搜索哪家好
  • 濱江網(wǎng)站建設(shè)公司東莞seo建站公司哪家好
  • 黑客網(wǎng)站網(wǎng)站鏈接查詢
  • 黃石做網(wǎng)站公司行業(yè)數(shù)據(jù)統(tǒng)計網(wǎng)站
  • 淘寶做的網(wǎng)站會不會過期十大最免費軟件排行榜
  • 一般做哪些外貿(mào)網(wǎng)站寧德市政府
  • 上海找做網(wǎng)站公司友情鏈接官網(wǎng)
  • wordpress 整站移植天津優(yōu)化代理
  • 景觀設(shè)計方案網(wǎng)站網(wǎng)絡(luò)營銷專業(yè)是學(xué)什么的
  • 七牛云做網(wǎng)站今日國內(nèi)新聞大事
  • 怎么做網(wǎng)站優(yōu)化排名識別關(guān)鍵詞軟件
  • 通州 網(wǎng)站建設(shè)自己怎樣在百度上做推廣
  • 網(wǎng)上購物商城網(wǎng)站建設(shè)畢業(yè)設(shè)計全球十大搜索引擎排名
  • 做網(wǎng)站不給源碼程序免費建站網(wǎng)站大全