ocr

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

--- ocr [2026/01/16 05:06] – [学習] araki
+++ ocr [2026/02/12 21:35] (現在) – [学習] araki
@@ 行 44: / 行 44: @@
 </code>
-=== ベースモデルの分解 ===
+=== tesstrainの取得 ===
-学習用の始点として trainneddataを用いることはできないので、これを分解して、学習用の始点となる lstm ファイルを得る。
+学習は tesstrain を使って行う。
+tesstrain はパッケージではなく GitHubから取得する。
 <code bash>
-$ combine_tessdata -u eng.traineddata eng.
+$ git clone https://github.com/tesseract-ocr/tesstrain.git
-Extracting tessdata components from eng.traineddata
+cd tesstrain
-Wrote eng.lstm
-Wrote eng.lstm-punc-dawg
-Wrote eng.lstm-word-dawg
-Wrote eng.lstm-number-dawg
-Wrote eng.lstm-unicharset
-Wrote eng.lstm-recoder
-Wrote eng.version
-Version:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1]
-:lstm:size=11689099, offset=192
-:lstm-punc-dawg:size=4322, offset=11689291
-:lstm-word-dawg:size=3694794, offset=11693613
-:lstm-number-dawg:size=4738, offset=15388407
-:lstm-unicharset:size=6360, offset=15393145
-:lstm-recoder:size=1012, offset=15399505
-:version:size=80, offset=15400517
-$
 </code>
-ここで得られた eng.lstm が学習の始点ファイルとなる。
 === 学習データの用意 ===
@@ 行 86: / 行 69: @@
 ファイルが用意出来たら、画像からの学習を開始する。
+../tessdata_best にGitHubから取得した学習のベースモデルが、./traindataに分解した画像ファイルとGround Truthテキストファイルがまとめておかれているとする。
+ベースモデルは eng で、kougakushaというモデルを作成するには、以下のコマンドを実行する。
 <code bash>
-$ tesseract D130.png D130 --psm 7 lstm.train --groundtruth D130.gt.txt
+$ make training \
+MODEL_NAME=kougakusha \
+START_MODEL=eng \
+TESSDATA=../tessdata_best \
+GROUND_TRUTH_DIR=./traindata \
+MAX_ITERATIONS=10000
 </code>
@@ 行 143: / 行 135: @@
 </code>
-これで dumplist.traineddata というモデルファイルが取得できる。
+これで kougakusha.traineddata というモデルファイルが取得できる。
 できたモデルファイルは、システムフォルダーにコピーするか、TESSDATA_PREFIX環境変数がポイントするフォルダーにコピーしておく。
 <code bash>
-$ sudo cp dumplist.traineddata /usr/share/tesseract-ocr/5/tessdata
+$ sudo cp kougakusha.traineddata /usr/share/tesseract-ocr/5/tessdata
 </code>

ocr.txt · 最終更新: 2026/02/12 21:35 by araki