國外做ppt的網(wǎng)站百度開放云平臺
文章目錄
- abstract
- 普通文字識別
- 本地軟件識別公式
- 擴展插件下載
- 小結(jié)
- 在線識別
- 網(wǎng)站/API👺
- Quicker整合(推薦)
- 可視化編輯和識別公式
- 其他
- 多模態(tài)大模型識別圖片中的公式
- 排版
- 開源模型
abstract
- 本文介紹免費圖片文本識別(OCR)工具,包括普通文字識別,公式識別,甚至是手寫公式和文字
- 重點在于免費和好用,不失選擇的多樣性
- 雖然公式識別的難度遠大于普通文字的識別難度,但是隨著技術(shù)的發(fā)展,公式識別也會像文本識別那樣易用,免費
- 其他重要的AI應(yīng)用(這里不展開)
- 還有表格識別,尤其是復雜表格的識別
- 逼真(接近真人播音員朗讀效果)的文本朗讀語言生成
- 本文內(nèi)容可能會隨著時間的逝去而過時,某些東西將來可能不那么好用,也可能變得好用,也可能出現(xiàn)更好的工具
普通文字識別
- 這類軟件或平臺十分的多,早已普及,比如qq/微信都有文本識別的功能
- 有人把微信里的ocr功能作為后臺設(shè)計了一個本地OCR,并且接入語音朗讀
- 那么主要比較的是識別速度和精度,以及易用程度,比如能否離線識別,連續(xù)識別的體驗,跨平臺如何,費用等方面
- 當然能夠識別公式的平臺通常也能識別普通文本(但是個別模型為了提高公式識別精度,僅設(shè)計為用來識別公式)
本地軟件識別公式
- Umi-OCR: Umi-OCR (gitee.com)
- 是一款免費、開源、可批量的離線 OCR 軟件,基于 PaddleOCR,適用于 Windows10/11 平臺
- 該鏈接同步github鏈接,源鏈接訪問比較慢:hiroi-sora/Umi-OCR: OCR software, free and offline. (github.com)
- 軟件主體和軟件的插件可以用鏡像加速下載
擴展插件下載
-
hiroi-sora/Umi-OCR_plugins: Umi-OCR 插件庫 (github.com)
-
該軟件是多功能OCR軟件,可以用于普通圖片中文本識別,也可以識別二維碼,甚至數(shù)學公式
- 識別數(shù)學公式需要下載插件中的體積較大的模型
- hiroi-sora/Umi-OCR_plugins: Umi-OCR 插件庫 (github.com)
- 插件名為win7開頭,表示:平臺兼容win7 以上(win10,11都可以用),64 位
-
請仔細閱讀倉庫介紹和使用說明
小結(jié)
- 軟件有多個模型供下載使用,識別公式的速度不是很快,模型推理時對于磁盤有一定的讀寫量
- 在有需要說別的時候,我個人會優(yōu)先使用在線工具識別
在線識別
網(wǎng)站/API👺
- Document & Formula OCR Service (simpletex.cn)👺
- 目前免費,支持手寫符號識別,圖片公式識別,文檔公式識別
- 并且有靈活的使用方式,包括api方式看起來很不錯
- 在線公式編輯器Document Editor (simpletex.net)
- Doc2X
- 精度也是不錯的,有一定量的免費額度,次數(shù)蠻多的
- 可以識別公式,也可以識別表格,包含公式的表格也不在話下,能夠?qū)С龅絯ord文件等
- Pix2Text (P2T) - Free Mathpix Alternative (breezedeus.com)
- 模型在成長期
- 有免費額度,有開源版的模型
Quicker整合(推薦)
-
如果經(jīng)常使用,推薦用Quicker整合,實現(xiàn)截屏識別
-
公式識別3 動作信息 - Quicker (getquicker.net)👺
- 使用Quicker軟件(需要常駐后臺)及其動作插件動作實現(xiàn)截圖識別公式,查看該鏈接教程進行配置
- 可以選擇多種api,教程中給出了推薦,目前用simpletex提供的api來識別很不錯
- 經(jīng)常使用的話十分推薦此方案,如果只是偶爾用用,那么用在線網(wǎng)站就夠了
-
Doc2X - by 藍莓派 - 動作信息 - Quicker (getquicker.net)
可視化編輯和識別公式
- 在線LaTeX公式編輯器-編輯器 (latexlive.com)
- 需要登錄,每個賬戶每天有少量免費次數(shù)(可能會調(diào)整)
- 這類普通賬戶有免費次數(shù)的機制有的人會注冊幾個賬號,甚至叫親朋好友幫忙注冊,不太優(yōu)雅,用得多的話可以用其他免費的代替品
其他
- 著名的收費公式識別(具有少量的免費額度
- Mathpix OCR User Guide: Examples of Rendered Math and Text
- 圖片轉(zhuǎn)LaTeX公式在線 - LaTeX公式識別 - 照片轉(zhuǎn)換成LaTeX公式 - 白描網(wǎng)頁版 (baimiaoapp.com)
多模態(tài)大模型識別圖片中的公式
-
做以下測試具有時效性,測試時都是免費功能,后續(xù)可能會有優(yōu)化,也可能不再免費
模型 示例 評價(僅先測試時的版本) 通義千問 效果尚可,需要等一會,復雜公式需要久一些
點擊通義回復的右下角復制按鈕獲得latex代碼;但是默認缺乏排班,需要告訴模型追加源代碼輸出,而不僅僅是渲染后的公式文心一言 免費模型(3.5)測的,一般般,復雜公式識別不全,期待優(yōu)化 -
大模型很多,這里就舉出兩個例子,其他的模型比如智譜清言也可以識別,但是同樣的例子出現(xiàn)了錯誤,將來可能會改進
排版
-
注意到通義模型可以較好的識別公式,個別細節(jié)可能需要微調(diào)
-
我們也可以繼續(xù)和模型交談,讓他輸出源代碼,或者排版,甚至給出改進建議,例如我要求輸出公式源代碼而非展示markdown渲染結(jié)果
開源模型
- Pix2Text/README_cn.md at main · breezedeus/Pix2Text (github.com)
- 當然還有其他的,一般能用在線免費的,就不需要本地部署了