OCR - 48歳からの挑戦

OCRってご存知でしょうか。

Optical Character Recongition　光学的文字認識

といいます。

画像認識されている文字をコンピューターが文字として認識できる文字コードに変換させる機能です。

いろいろペーパーレスを進めるとき、スキャンしてPDFにしてクラウドのサーバーにいれて保管する方法はよく聞く話です。

ほとんどが保管用なのですが、電子化したことでできるものなら検索ができるようになるといいと思い、OCRをつかってテキストを認識できるようにしたいと思ってちょっと調べてみたら、見事にハマりました(^^;;

ちなみにPDFはAdobeが作ったファイル形式で、Acrobat Readerで無料で読むことができる便利なファイルです。

英語セミナーのテキストもPDFにして皆さんに配布しています。

いつも気になるのは、「ファイルサイズ」と「検索」。

幸いにもPower PointからPDFにすると文字情報は残っているようで検索はできますし、貼り付けた画像をJPEGなどに変換してからPDFにすることで、サイズを小さくすることができます。

なのでこちらは大丈夫。

問題は私の書類でして・・・(^^;;

契約書や領収書といったどんどん膨れ上がる書類をことごとくスキャンしてPDF化したのですが、どれもOCRがかかっておらず、文字コードになっていないため検索がかけられません。

また、最近Amazonの購入履歴をPDFにすると1ページだけで6.4MBにも膨れ上がるようになってしまい、ファイルがでかくなってクラウドの容量を今後圧迫しかねない不安がでてきました。

こちら文字コード認識はできるようにPDF化されるようです。

（ただしすべてではなさそう）

ネットでいろいろと調べてみたところ、

・大元であるAdobeは年間2万円くらいするサブスクリプションで費用がかかる

・もっと安くするために売切のソフトを探したら、ソースネクストの「読取革命」が一番評価が高そう。

・ただしこれはWindowsのみサポートで、Macで活用できるのは先程のAdobeが出しているAcrobat Pro DCしかない

ということがわかってきました。

”読取革命”を試してみた

f:id:almater2014:20210115162836j:plain

今更Windowsに依存するような体制はとりたくなかったのですが、評判の高かった「読取革命」は買取り式で11,000円くらいで入手できるので、悔しいのですが、Amazonで購入。

早く大量のファイルを処理したいと思っていたので、到着が待ち遠しく、届けられてすぐにインストールして、いざ取り掛かりました。

・・・・

まず困惑したのは、分かりづらいインターフェース。

マニュアルをみるといろいろな機能が盛り込まれているようで、そのため小さいボタンがたくさんあり直感的なイメージが働かない。

やむなくマニュアルを見始めますが、私がやりたい、

「PDFを読み込む」ー＞「文字変換する」ー＞「保存する」

という流れがわからない。。。

え〜、と思っていたら「簡単モード」というのがあって、それがまさにこの流れであることが判明（笑）

ではでは、やってみようととボタンを押してみると・・・

私は元のファイルの様式そのままで文字認識ができるようになることを期待していたのですが、

・レイアウト、デザインが変わってしまった

・文字化けがいたるところに見つかった

という結果になり、まったく期待はずれな結果に・・・

レイアウト、デザインが変わってしまったのは、もともとPDFをそのまま文字認識させるのではなく、ExcelやWord、Power Pointなどに変換させることを重視した仕様なのかもしれません。

それならば設計思想の話だから、仕方ないところはあります。

ただ、文字化けが多いのは困った。

かすれや特別なフォント、手書き、というわけではないにもかかわらずとんでもない文字になっている。

こんなに文字化けされちゃうと、いちいち修正に時間がかかってしまって、やってられません。

これは文字コード変換能力の話なので、残念。

もともとはPanasonicが開発して、ソースネクストが引き継いだようです。

その後Manualを読んでいろいろ試してみましたが、結論は「私の期待に応えられない」でした。

もしかしたら何か手があるのかもしれないんだけど、現時点ではタイムアップな感じです。

あきらめてメルカリ行きとなりました。。。

（設定価格が安かったためか秒殺で売れました(^^)）

Acrobat Pro DC

そして毎年2万もかけるのかぁ、と思いながら覚悟をしてAdobeのAcrobat Pro DCを試してみることに。

こちらありがたいことに7日間のお試しがあるため、まずはお試し登録でダウンロード。

以前VAIOにAcrobat XI Standardを入れていて、そこにあったOCR機能を使ってかなりテキスト化をすることでファイルサイズも小さくなり、これはいいと思っていたのですが、Adobeがこのモデルのサポートをやめ、サブスクリプションしか扱わなくなってしまったことで使えなくなってしまったんです。

インストールしていたVAIOもだめになっちゃったし、今のWindowsマシーンに再インストールしてもエラーで動きませんでした。

なので、このサブスクリプションをやるしかないのか、と半ばあきらめてダウンロード。

早速たくさんある契約書のファイルをOCRにかけてみた・・・が・・・文字コードに認識できない。。。

え？

こんなに鮮明な文字なのに？

f:id:almater2014:20210115164516j:plain