2020年1月14日 星期二

Tesseract OCR


Tesseract OCR 是一套可以辨識照片中的文字的強大工具。
本篇文章介紹如何安裝及使用。

1.
在Linux安裝套件可以簡單的執行
sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-chi-tra #中文語言包
sudo apt-get install tesseract-ocr-eng #英文語言包

2.
安裝好後,再到
自行下載最佳語言包,到下列語言包目錄
/usr/share/tesseract-ocr/5/tessdata
覆蓋舊的chi-tra及eng.traineddata


3.
執行方法:
tesseract sample.jpg sample -l chi_tra+eng --psm 1 --oem 1 alto
參數說明:
sample.jpg是你要辨識的照片
sample是輸出主檔名
chi_tra+eng是中文模型加英文模型(模型名稱可以參考這個模型清單https://github.com/tesseract-ocr/tessdata_best)
--psm 1是Automatic page segmentation with OSD
--oem 1是LSTM引擎
alto 是Output in ALTO format (OUTPUTBASE.xml).,類似hOCR的格式


4.
辨識的結果是XML格式,裡面包含了辨識的字和位置,要讀這個檔案的內容,可以用下列軟體:
http://www.prima.cse.salford.ac.uk/tools/PAGEViewer

開啟剛才完成的XML檔案和原始圖片,PageViewer會合併在一起秀給你看。將鼠標放在圖片的字上,就會秀出辨識的字串。


















沒有留言:

張貼留言

IKEA吊櫃廚櫃

 好不容易裝好IKEA買來的吊櫃,花了三天。 從組裝,鑽牆,上牆調水平,累死我了。