ocr
差分
このページの2つのバージョン間の差分を表示します。
| 両方とも前のリビジョン前のリビジョン | |||
| ocr [2026/01/16 05:06] – [学習] araki | ocr [2026/02/12 21:35] (現在) – [学習] araki | ||
|---|---|---|---|
| 行 44: | 行 44: | ||
| </ | </ | ||
| - | === ベースモデルの分解 | + | === tesstrainの取得 |
| - | 学習用の始点として trainneddataを用いることはできないので、これを分解して、学習用の始点となる lstm ファイルを得る。 | + | 学習は tesstrain を使って行う。 |
| + | tesstrain | ||
| <code bash> | <code bash> | ||
| - | $ combine_tessdata -u eng.traineddata eng. | + | $ git clone https:// |
| - | Extracting tessdata components from eng.traineddata | + | cd tesstrain |
| - | Wrote eng.lstm | + | |
| - | Wrote eng.lstm-punc-dawg | + | |
| - | Wrote eng.lstm-word-dawg | + | |
| - | Wrote eng.lstm-number-dawg | + | |
| - | Wrote eng.lstm-unicharset | + | |
| - | Wrote eng.lstm-recoder | + | |
| - | Wrote eng.version | + | |
| - | Version: | + | |
| - | 17: | + | |
| - | 18: | + | |
| - | 19: | + | |
| - | 20: | + | |
| - | 21: | + | |
| - | 22: | + | |
| - | 23: | + | |
| - | $ | + | |
| </ | </ | ||
| - | |||
| - | ここで得られた eng.lstm が学習の始点ファイルとなる。 | ||
| === 学習データの用意 === | === 学習データの用意 === | ||
| 行 86: | 行 69: | ||
| ファイルが用意出来たら、画像からの学習を開始する。 | ファイルが用意出来たら、画像からの学習を開始する。 | ||
| + | ../ | ||
| + | |||
| + | ベースモデルは eng で、kougakushaというモデルを作成するには、以下のコマンドを実行する。 | ||
| <code bash> | <code bash> | ||
| - | $ tesseract D130.png D130 --psm 7 lstm.train --groundtruth D130.gt.txt | + | $ make training \ |
| + | MODEL_NAME=kougakusha \ | ||
| + | START_MODEL=eng \ | ||
| + | TESSDATA=../ | ||
| + | GROUND_TRUTH_DIR=./traindata \ | ||
| + | MAX_ITERATIONS=10000 | ||
| </ | </ | ||
| 行 143: | 行 135: | ||
| </ | </ | ||
| - | これで | + | これで |
| できたモデルファイルは、システムフォルダーにコピーするか、TESSDATA_PREFIX環境変数がポイントするフォルダーにコピーしておく。 | できたモデルファイルは、システムフォルダーにコピーするか、TESSDATA_PREFIX環境変数がポイントするフォルダーにコピーしておく。 | ||
| <code bash> | <code bash> | ||
| - | $ sudo cp dumplist.traineddata / | + | $ sudo cp kougakusha.traineddata / |
| </ | </ | ||
ocr.txt · 最終更新: by araki
