Python 画像からテキストを出力する方法 OCR

画像文字列出力アイキャッチ画像 Python

インストール

準備するものは3つ

  • Java・・・OCRの利用にJava必須
  • PyOCR・・・OCRを利用可能にするために必要なモジュール
  • Tesseract-OCR・・・オープンソースのOCRエンジン

『OCR』とは
画像ファイルの文字をテキストとして読み込む技術です

Javaのインストール

Windows版Javaのダウンロード オフライン・インストール
環境に合わせてインストーラーをダウンロードして下さい
Javaダウンロード
exeを実行します
JavaインストールExe実行
Javaインストール中
インストール成功
Javaインストール成功

Java環境変数の設定

「コントロールパネル」を開く
「システムとセキュリティ」をクリック
コントロールパネル
「システム」をクリック
コントロールパネルシステムクリック
「システムの詳細設定」をクリック
システムの詳細設定
「環境変数」をクリック
環境変数
JAVA_HOMEを作成
環境変数JAVA_HOME設定
変数名:JAVA_HOME
変数値:C:\Program Files (x86)\Java\jre1.8.0_301
JAVA_HOMEの編集ダイアログ

Java環境変数の設定確認

コマンドプロンプトにて次のコマンドを実行

JAVA環境変数の確認
環境変数が設定できています

pyocrインストール

pyocrインストール

Tesseract-OCRインストール

こちらからインストーラーをダウンロード

インストーラーを実行
「Next」クリック

「I Agree」クリック
インストーラー実行手順2
「Next」クリック
インストーラー実行手順3
「Additional script data(download)」を展開
次の項目にチェック

  • Japanese script
  • Japanese vertical script

「Next」クリック

「Additional language data(download)」を展開
次の項目にチェック

  • Japanese
  • Japanese(Vertical)

「Next」クリック
インストーラー実行手順5
その後は変更なしで進めていけば完了

サンプルソース

次の画像から文字列「Hello World!」を抽出してみましょ!

Hello World文字列画像

実行結果
画像読み取り結果

コメント

タイトルとURLをコピーしました