OCRってご存知でしょうか。
Optical Character Recongition 光学的文字認識
といいます。
画像認識されている文字をコンピューターが文字として認識できる文字コードに変換させる機能です。
いろいろペーパーレスを進めるとき、スキャンしてPDFにしてクラウドのサーバーにいれて保管する方法はよく聞く話です。
ほとんどが保管用なのですが、電子化したことでできるものなら検索ができるようになるといいと思い、OCRをつかってテキストを認識できるようにしたいと思ってちょっと調べてみたら、見事にハマりました(^^;;
ちなみにPDFはAdobeが作ったファイル形式で、Acrobat Readerで無料で読むことができる便利なファイルです。
英語セミナーのテキストもPDFにして皆さんに配布しています。
いつも気になるのは、「ファイルサイズ」と「検索」。
幸いにもPower PointからPDFにすると文字情報は残っているようで検索はできますし、貼り付けた画像をJPEGなどに変換してからPDFにすることで、サイズを小さくすることができます。
なのでこちらは大丈夫。
問題は私の書類でして・・・(^^;;
契約書や領収書といったどんどん膨れ上がる書類をことごとくスキャンしてPDF化したのですが、どれもOCRがかかっておらず、文字コードになっていないため検索がかけられません。
また、最近Amazonの購入履歴をPDFにすると1ページだけで6.4MBにも膨れ上がるようになってしまい、ファイルがでかくなってクラウドの容量を今後圧迫しかねない不安がでてきました。
こちら文字コード認識はできるようにPDF化されるようです。
(ただしすべてではなさそう)
ネットでいろいろと調べてみたところ、
・大元であるAdobeは年間2万円くらいするサブスクリプションで費用がかかる
・もっと安くするために売切のソフトを探したら、ソースネクストの「読取革命」が一番評価が高そう。
・ただしこれはWindowsのみサポートで、Macで活用できるのは先程のAdobeが出しているAcrobat Pro DCしかない
ということがわかってきました。
”読取革命”を試してみた
今更Windowsに依存するような体制はとりたくなかったのですが、評判の高かった「読取革命」は買取り式で11,000円くらいで入手できるので、悔しいのですが、Amazonで購入。
早く大量のファイルを処理したいと思っていたので、到着が待ち遠しく、届けられてすぐにインストールして、いざ取り掛かりました。
・・・・
まず困惑したのは、分かりづらいインターフェース。
マニュアルをみるといろいろな機能が盛り込まれているようで、そのため小さいボタンがたくさんあり直感的なイメージが働かない。
やむなくマニュアルを見始めますが、私がやりたい、
「PDFを読み込む」ー>「文字変換する」ー>「保存する」
という流れがわからない。。。
え〜、と思っていたら「簡単モード」というのがあって、それがまさにこの流れであることが判明(笑)
ではでは、やってみようととボタンを押してみると・・・
私は元のファイルの様式そのままで文字認識ができるようになることを期待していたのですが、
・レイアウト、デザインが変わってしまった
・文字化けがいたるところに見つかった
という結果になり、まったく期待はずれな結果に・・・
レイアウト、デザインが変わってしまったのは、もともとPDFをそのまま文字認識させるのではなく、ExcelやWord、Power Pointなどに変換させることを重視した仕様なのかもしれません。
それならば設計思想の話だから、仕方ないところはあります。
ただ、文字化けが多いのは困った。
かすれや特別なフォント、手書き、というわけではないにもかかわらずとんでもない文字になっている。
こんなに文字化けされちゃうと、いちいち修正に時間がかかってしまって、やってられません。
これは文字コード変換能力の話なので、残念。
もともとはPanasonicが開発して、ソースネクストが引き継いだようです。
その後Manualを読んでいろいろ試してみましたが、結論は「私の期待に応えられない」でした。
もしかしたら何か手があるのかもしれないんだけど、現時点ではタイムアップな感じです。
あきらめてメルカリ行きとなりました。。。
(設定価格が安かったためか秒殺で売れました(^^))
Acrobat Pro DC
そして毎年2万もかけるのかぁ、と思いながら覚悟をしてAdobeのAcrobat Pro DCを試してみることに。
こちらありがたいことに7日間のお試しがあるため、まずはお試し登録でダウンロード。
以前VAIOにAcrobat XI Standardを入れていて、そこにあったOCR機能を使ってかなりテキスト化をすることでファイルサイズも小さくなり、これはいいと思っていたのですが、Adobeがこのモデルのサポートをやめ、サブスクリプションしか扱わなくなってしまったことで使えなくなってしまったんです。
インストールしていたVAIOもだめになっちゃったし、今のWindowsマシーンに再インストールしてもエラーで動きませんでした。
なので、このサブスクリプションをやるしかないのか、と半ばあきらめてダウンロード。
早速たくさんある契約書のファイルをOCRにかけてみた・・・が・・・文字コードに認識できない。。。
え?
こんなに鮮明な文字なのに?
何度やってもいろいろな方法を試みても(補正かけたり、一度JPGの画像にしてからPDFを作り直したり)認識できず。
どうしようもなく、Adobeのサポートをチャットで申込み。
すると文字認識についてはチャットでのサポートはできないので、電話してほしい、と。
電話をかけてオペレーターがでるまでおよそ30分・・・
フリーダイヤルだからいいものの、作ったお昼を食べ終えて食器も洗ってしまいました(笑)
サポートデスクから遠隔操作を認めて画面をみてもらいながら確認をしていきましたが、結論は「文字コードに変換できません」。
なんと!大元までギブアップ?
ということはどのアプリケーションもだめ、ということですね。。。
以前は結構手軽に簡単にOCRできてた印象があるのですが、何か技術的に難しくなったのでしょうか。
散々時間を使ったのですが、アンインストールすることに。
もちろんお試し版もその場で解約。(ほっておくと課金されてしまうので)
スキャナーで文字認識
契約書は利用者が退去したときにまとめてスキャナーScan Snapでスキャンをするので、そのときにOCRがかかる機能を活用できれば、だいぶ楽になります。
そこでScan Snapにその機能を入れようと調べてみると、私はMacで使っているので少々面倒なことに。
まずそもそもOCRがWindows仕様が多く、またScan Snap自体もMacで使えるようになったのは最近。
OCRパックというものがあるらしいのですが、基本Windows仕様ということで、「え〜」とぶちぶち言いながら調べてみると、Macのパッケージもあることが判明。
ただこれを有効するにはMacにScanSnap Managerというアプリをインストールしないといけない。
このScanSnap Manager、その後包括的なアプリScanSnap Homeがでたことでサポートしなくなっているんですが・・・
それでも強引にインストールしてHomeをアンインストールして、といろいろ面倒なことをやっているうちに、どうもOCRがかかるようになってるっぽい感じになったので、試しにスキャンしてみたところ、一応文字認識はできました。
これでとりあえずスキャナーからはできそう。
ファイルサイズを小さくする
Amazonの購入履歴をPDFにすると大きなファイルになるといいましたが、文字認識はできるようになっていました。
(前はなかったはず)
それで調べてみるとネットで無料でPDFのファイルサイズを小さくするサービスがあるというので、試してみました。
やってみたところ、なんと90%以上も小さくなりました。
文字認識はざっくり見ましたが維持されているようです。
とりあえずAmazonの購入記録はこれでサイズダウンできそう・・・
まあ、こんな感じで
・書類の電子化
・それに伴う検索化、ファイルサイズダウン
・クラウドに格納
という流れは、なかなかすんなりとはいきませんでした。
活動スペースで場所を最も取るのが洋服と紙。
これらをなくすことでだいぶスッキリするはずなんですが、簡単にはいきませんね。
どのネット見ても「OCRはまだ完璧ではない」という記述がありますが、昔の方が変換の質は高かった気がします。(あくまでも印象であって、実際は逆かもしれません)
顔認識とかいろいろな認識技術はどんどん進歩しているのですが、文字認識もなんとかしてほしいなぁ、と思うここ数日でした(^^)