oscar: Tesseract OCR

2020年1月14日星期二

Tesseract OCR

Tesseract OCR 是一套可以辨識照片中的文字的強大工具。
本篇文章介紹如何安裝及使用。

1.
在Linux安裝套件可以簡單的執行
sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-chi-tra #中文語言包
sudo apt-get install tesseract-ocr-eng #英文語言包

安裝好後，再到

https://github.com/tesseract-ocr/tessdata_best

自行下載最佳語言包，到下列語言包目錄

/usr/share/tesseract-ocr/5/tessdata

覆蓋舊的chi-tra及eng.traineddata

執行方法：
tesseract sample.jpg sample -l chi_tra+eng --psm 1 --oem 1 alto
參數說明：
sample.jpg是你要辨識的照片
sample是輸出主檔名
chi_tra+eng是中文模型加英文模型(模型名稱可以參考這個模型清單https://github.com/tesseract-ocr/tessdata_best)
--psm 1是Automatic page segmentation with OSD
--oem 1是LSTM引擎
alto 是Output in ALTO format (OUTPUTBASE.xml).，類似hOCR的格式

4.
辨識的結果是XML格式，裡面包含了辨識的字和位置，要讀這個檔案的內容，可以用下列軟體：
http://www.prima.cse.salford.ac.uk/tools/PAGEViewer

開啟剛才完成的XML檔案和原始圖片，PageViewer會合併在一起秀給你看。將鼠標放在圖片的字上，就會秀出辨識的字串。

oscar

2020年1月14日星期二

Tesseract OCR

沒有留言:

張貼留言

IKEA吊櫃廚櫃

追蹤者

JavaScript code prettifier

2020年1月14日 星期二

Tesseract OCR

沒有留言:

張貼留言

IKEA吊櫃廚櫃

2020年1月14日星期二