ユーザ用ツール

サイト用ツール


ocr

差分

このページの2つのバージョン間の差分を表示します。

この比較画面へのリンク

両方とも前のリビジョン前のリビジョン
ocr [2026/01/16 05:06] – [学習] arakiocr [2026/02/12 21:35] (現在) – [学習] araki
行 44: 行 44:
 </code> </code>
  
-=== ベースモデル分解 ===+=== tesstrain取得 ===
  
-学習用の始点として trainneddataを用いることはでいので、これを分解して、学習用の始点となる lstm ファイルを得る。+学習は tesstrain を使っ行う。 
 +tesstrain パッケージく GitHubから取る。
  
 <code bash> <code bash>
-combine_tessdata -u eng.traineddata eng. +git clone https://github.com/tesseract-ocr/tesstrain.git 
-Extracting tessdata components from eng.traineddata +cd tesstrain
-Wrote eng.lstm +
-Wrote eng.lstm-punc-dawg +
-Wrote eng.lstm-word-dawg +
-Wrote eng.lstm-number-dawg +
-Wrote eng.lstm-unicharset +
-Wrote eng.lstm-recoder +
-Wrote eng.version +
-Version:4.00.00alpha:eng:synth20170629:[1,36,0,1Ct3,3,16Mp3,3Lfys64Lfx96Lrx96Lfx512O1c1] +
-17:lstm:size=11689099, offset=192 +
-18:lstm-punc-dawg:size=4322, offset=11689291 +
-19:lstm-word-dawg:size=3694794, offset=11693613 +
-20:lstm-number-dawg:size=4738, offset=15388407 +
-21:lstm-unicharset:size=6360, offset=15393145 +
-22:lstm-recoder:size=1012, offset=15399505 +
-23:version:size=80, offset=15400517 +
-$+
 </code> </code>
- 
-ここで得られた eng.lstm が学習の始点ファイルとなる。 
  
 === 学習データの用意 === === 学習データの用意 ===
行 86: 行 69:
  
 ファイルが用意出来たら、画像からの学習を開始する。 ファイルが用意出来たら、画像からの学習を開始する。
 +../tessdata_best にGitHubから取得した学習のベースモデルが、./traindataに分解した画像ファイルとGround Truthテキストファイルがまとめておかれているとする。
 +
 +ベースモデルは eng で、kougakushaというモデルを作成するには、以下のコマンドを実行する。
  
 <code bash> <code bash>
-tesseract D130.png D130 --psm 7 lstm.train --groundtruth D130.gt.txt+make training \ 
 +MODEL_NAME=kougakusha \ 
 +START_MODEL=eng \ 
 +TESSDATA=../tessdata_best \ 
 +GROUND_TRUTH_DIR=./traindata \ 
 +MAX_ITERATIONS=10000 
 </code> </code>
  
行 143: 行 135:
 </code> </code>
  
-これで dumplist.traineddata というモデルファイルが取得できる。+これで kougakusha.traineddata というモデルファイルが取得できる。
 できたモデルファイルは、システムフォルダーにコピーするか、TESSDATA_PREFIX環境変数がポイントするフォルダーにコピーしておく。 できたモデルファイルは、システムフォルダーにコピーするか、TESSDATA_PREFIX環境変数がポイントするフォルダーにコピーしておく。
  
 <code bash> <code bash>
-$ sudo cp dumplist.traineddata /usr/share/tesseract-ocr/5/tessdata+$ sudo cp kougakusha.traineddata /usr/share/tesseract-ocr/5/tessdata
 </code> </code>
  
ocr.txt · 最終更新: by araki