■お買い物するなら○アマゾンへGo!
ここではOCRソフト(PDF関係)に関してご紹介したいと思います。
検索を前提とした場合にイメージファイルはそのままでは検索できませんのでOCRと呼ばれる文字認識が使われます。これらは非常に高い技術で成り立っていますが、かつては高価であったこのジャンルでも低価格化の波が押し寄せ、現在はお手ごろな価格で提供されています。
OCRソフトはさまざまな形態で提供されています。「スキャナにバンドルされているもの」「ファイリングソフトに内蔵されているもの」「単品で販売されているもの」があり、ここでは単品販売のものを扱いたいと思います。またこの中にも2種類あり、単品で動作するもの以外にAcrobatのPlugInとなるものもあります。
一昔前までは、主流は「再利用」におかれており、WordやExcelに戻すものが多かったと思います。これはこれで用途がありますが、現在は「検索用にテキスト出力する」形が出てきています。そうなるとイメージデータ+テキストデータになるわけですが、PDFであれはこれらは透明テキストとして埋め込まれますので、検索用として使えます。
ここでは検索用のものをお勧めしたいと思います。したがって別の用途に使う場合は評価は全く分かれることになると思います。
検索用に使う場合のポイントは
・入力としてはJpeg・Tiff・ImagePDFが扱えること
・出力としてPDFの透明テキストになること
・手作業は少なく自動で大半をこなしてくれること
・認識率が95%はほしいこと
・高速であること(処理が多いとさすがに負荷が重いですから)
などが評価的な観点となります。勿論価格は安いに越したことはありません。
こういう使い方をしない場合にはOCRは不要とも言えますが、多くのドキュメントを扱う場合はもっておいてよいと思います。またクライアントで処理するのではなくサーバで行う場合もありますが、ここではパーソナルなものを取り上げます。
こちらにも良い比較記事があります。
ScanPaper for PDF(AIソフト)
EPSON派 ■ScanPaper for PDF
OCRでは定評のあるAIソフトの製品です。名前からはわかりにくくなっていますし、姉妹品はPDFWriterに分類できるものですが、これはOCRに分類しました。
2005.08に改名してScanPaper for PDFとなりましたが、中身はほぼ同じものです。
簡単にはこれは「汎用スキャナをScanSnap」に変えるソフトウェアです。ただいろいろやってみると、どうも全てのSTI(StillImageInterface)のスキャナに対応しているわけではなく、ある程度機種を選びます。ですから同社のHPにて対応機種は確認しておいた方がいいと思います。
価格はダウンロード版で¥3,800(税別)とお手ごろな価格です。
表には一見スキャナがないと使えないような感じで見えますが、メニューの中かフォルダの中を探すとpdStep(現在はこれも「ステップ実行ツール」に改名)というものがあり、これでファイル変換が可能です。
入力はImagePDFはできませんが、bmpやTiffやJpegなどが扱えます。新しいVerではImagePDFも扱えます。
出力は透明テキスト付PDF(名前からしてそうですが)にすることができます。PDFの編集機能はありませんが、画像段階でページの入れ替えなどは可能です。
認識速度はまあまあの部類だと思います(同社のものはやや遅いのですが)。200dpi以上であれば精度もまあまあです。
キャノンのスキャナを持っておられれば、OCR付で透明テキスト付PDFに落ちますから、認識精度を除けば不要と言えばそうです。
ScanSnapはAcrobatが添付されこれにPaperCaptureというOCRがついていますのでこれまた(認識精度があまよ良くないのですが)不要です。EOX3からは、Acrobat7になりOCRもAIさんのエンジンになりました。いちいちOCRをするのが面倒な場合でEOX2以前のユーザさんであれば良いと思います。新しいものはScanSnapそのものがサポートスキャナになっています。ただ残念なのは、OCRが終わっても自動で終了はせず、いちいち終了をクリックしなくてはなりません。
EPSON製スキャナだけはOCRがついていますが透明テキスト付PDFに落ちるわけではないのでこれは有用です。(というか同じAI製品でもこれをつけてほしいです。)
いいのはちゃんと位置情報付きのPDFになります。当たり前そうなんですが、なかなかないのも実態です。
【惜しい!!】
pdStep(ステップ実行ツール)は使い勝手もいいのですが、やはり自動でやってほしいです。コマンドラインもとりませんから自動化するのは何かバッチ風のもので行うしかありません。ここまで簡単にしたなら自動でやってほしかったです。ScanSnapから起動できますし、ImagePDFもできますからバッチは工夫すればできるかもしれません。但し自動終了しないのが悔やまれます。
お勧めショップ情報 ○アマゾンのショップ:低価格&品数豊富&中古販売あり
読んdeココ(AIソフト)
Acrobat派 ■読んdeココ
これもAIソフトさんのOCRです。価格は¥19,800(税別)となっています。OCRの統合型ソフトという形になっていますのでいろいろな使い方ができるようになっています。主なものは
・スキャナから認識する:WordやExcel以外にも透明テキスト付PDFもできます。これはpdMaker相当です。
・自動認識:これはpdMakerよりも強力で自動でこなします。対応画像フォーマットはbmp、Tiff、Jpegなどです。
・マニュアル認識?:一般的に画像を読んでレイアウト解析してというスタイルで認識されます。
などがあり、それぞれがビューをもっています。
またAcrobatだけではなくWordやExcelのアドインで登録が可能です。
認識速度はpdMakerよりは遅い印象があります。200dpi以上であれば精度もまあまあです。AcrobatのPaperCaptureよりは良いです。
【惜しい!!】
OCRのAllInOneソフトとしては良くできていますが、イメージを透明テキスト付PDFにしたいだけならややオーバースペックかもしれません。
AcrobatのPaperCaptureの認識率に不満がある場合は試してみる価値はあると思います。速度は似たようなものだと思います。
お勧めショップ情報 ○アマゾンのショップ:低価格&品数豊富&中古販売あり
eTypist(メディアドライブ)
自動処理派 ■eTypist
OCRの老舗メディアドライブさんのOCRです。価格はメディアドライブさんを意識されてか¥19,800(税別)となっています。OCRの統合型ソフトという形でAIさんの読んdeココと同じような形です。ただこちらはビューを変えるような感じではなく選択でモードが切り替わります。
・スキャナから認識する:WordやExcel以外にも透明テキスト付PDFもできます。これも同じ感じです。
・認識:これはある程度を自動でこなします。対応画像フォーマットはbmp、Tiff、Jpegなどですが、なんとImagePDFが読めます。
認識速度は読んdeココよりは早い印象があります。200dpi以上であれば精度も互角です。しかしなぜかPDFのインポートはやや遅めです。
またAcrobatだけではなくWordやExcelのアドインで登録が可能なのも読んdeココと同じです。
特筆すべきなのはQuickTypistというものがついていて、これが自動実行には最適のものです。これが組み合わせには最適な素材のように思います。
透明テキスト付PDFで出力が可能なのは勿論です。
【惜しい!!】

「ImagePDFが読める」「QuickTypistで自動実行できる」部分はこちらの方が良くできています。しかし、AcrobatのPlugInに関してだけ言えば、「読んdeココ」はそのPDFを認識してくれますが、これはeTypistがLaunchされるような感じですので、その点は「読んdeココ」に軍配があがります。つまりAcrobatから使うなら「読んdeココ」がいいし、バッチ的に一括実行させるならこちらの方が向いています。
それにしてもQuickTypistだけを低価格で提供できないものでしょうか?
またPDFでもモノクロを入れると食べることは食べますがサイズが異様に大きくなります。Tiff変換すればそうでもありません。このあたりも改良してほしいところです。
お勧めショップ情報 ○アマゾンのショップ低価格&品数豊富&中古販売あり
やさしくPDFOCR(メディアドライブ
■やさしくPDFOCR
これもメディアドライブさんのOCRです。価格はpdMakerを意識された...ことはないと思いますが¥4,980(税別)です。最新はダウンロード版も用意されたようです。PDFWriterとのセットもあります。こちらはさすがにpdMakerとはコンセプトが異なり「ImagePDFの認識」に特化したような感じです。ただファイルは対応画像フォーマットとしてbmp、Tiff、Jpegなどです。
透明テキスト付PDFで出力が可能なのは勿論ですがAcrobatのPlugInにはなりません。
【惜しい!!】

「自動実行」というのもあるのですが、なぜかボタンを押してそこからやらないとできなくなっています。
つまりD&Dしても、ボタンを押さないといけないという妙な仕様になっています。QuickTypistのように何もせずに進んでほしいところです。
また同じPDFなのにPDFのインポートはeTypistよりかなり遅めに見えます。ここは改良してほしいところです。この手は検索用ですから、自動を強化して速度優先でお願いしたいものです。
UIも手間がかかりあまり良好ではありません。
お勧めショップ情報 ○アマゾンのショップ:低価格&品数豊富&中古販売あり    
読取革命(パナソニックソリューション)
■読取革命
これはパナソニックソリューションさんのOCRです。実はこれ以外にも同社には「本格読取」という製品があり、こちらはソースネクストさんが販売しておられますので、そちらの方が有名だったりします。しかし、「本格読取」はWordやExcelに戻すことを目的としています。
こちらの方は¥19,800と読んdeココやeTypistを意識した価格設定となっています。Ver9では優待版というので¥8,500の設定もあります。こちらはスキャナか何かOCRソフトを所有しているユーザ向けです。
OCRの統合型ソフトですがAIさんやメディアドライブさんとは少し違っていて同じ画面の中でフローを切り替えるような感じです。スキャナ(TWAIN)から認識することもできます。
対応画像フォーマットはbmp、Tiff、Jpegなど以外にも沢山あります。現在はVer9となってPDFやXdw(DocuWorks)もサポートされたようです。
出力はWord以外にもPDF(透明テキスト付)やHTMLなどが選べます。
認識速度ですがレイアウト解析は早いのですが、認識そのものは遅めでは読んdeココと同じぐらいではないかと思います。200dpi以上であれば精度も十分だと思います。
またアドインはWordだけのもようでAcrobatでは使えません。
【惜しい!!】

記事の時点ではVer8で評価しています。操作は他ソフトと良く似ていますが、対話式で進めるのを基本としているようで自動実行がないのは痛いです。ただわりと素直な感じでTiffなどをD&Dしてボタンを押していけばできます。画面もイライラしないように工夫されている感じです。
ただ、透明PDFを作るなら何か自動モードはほしいですね。
話は全然違いますが、画像の長方形化というのがあってデジカメの画像でもある程度なおるのは感動します。
お勧めショップ情報 ○アマゾンのショップ::低価格&品数豊富&中古販売あり  
本格読取(ソースネクスト)
■本格読取
これはパナソニックソリューションさんのOCRです。「本格読取」はWordやExcelに戻すことを目的としています。価格は¥1,980と申し分ありません。(^^)
WordやExcelに変換するものは、例えば最近のScanSnapにも付属しています。もし、スキャナなどのデータを参考にして文書を書く場合は重宝すると思います。まあ「あってもいいかな?」で買えるのが最大の特徴かもしれません。

【惜しい!!】

この手のソフトはどうしても複雑な段組には弱い傾向をもっています。簡単なレイアウトですと比較的良い変換結果が得られますが、時としては「なんじゃ、こりゃ?」みたいな結果も覚悟しなくてはなりません。(^^!
使って見た分には簡単なものなら十分使えそうです。
お勧めショップ情報 ○アマゾンのショップ:低価格&品数豊富&中古販売あり
読取ワールド(クロスランゲージ)
■読取ワールド
これはクロスランゲージさんの比較的新しいOCRです。特徴としては日本語以外に英語の混在も扱います。また価格は¥2,980とお手ごろ価格になっています。
これも実はまだ試したことはありません。入力でPDFが扱えることから大抵のスキャナ出力はこれで渡せばたぶんOKだと思います。(Tiffはいろいろ非互換がありますから)
PDF出力の他、WordやExcelに転送することができるようです。
これも、スキャナなどのデータを参考にして文書を書く場合は重宝すると思います。まあ「あってもいいかな?」で買えるのが最大の特徴かもしれません。

【惜しい!!】

TWAINを探しても見当たらないのでファイル変換と考えてもよさそうです。割り切ればかえって潔いという感じもします。面白いソフトだと思います。
お勧めショップ情報 ○アマゾンのショップ:低価格&品数豊富&中古販売あり
こうやってみると冒頭の条件で
@入力としてはJpeg・Tiff・ImagePDFが扱えること
に関してはImagePDFを扱えるものは少ないです。(今はメディアドライブさんとクロスランゲージだけ?。)
そういう意味ではジャンルは違いますが、クセロさんの瞬簡ファイリングの方がいいです。
A出力としてPDFの透明テキストになること
これはほぼOKです。(それ以外をはずしたからでもありますけど。)逆にこれはクセロさんのは難があります。(なおるのかな?)
B手作業は少なく自動で大半をこなしてくれること
なぜかこれが驚くほど少ないです。不思議です。技術的には全部もっていますが、サーバでやることを恐れてか高い価格です。せいぜいがQuickTypistが該当しますが、これも難があります。
C認識率と速度
認識率より速度が大きくばらついている印象があります。そういう意味での評価なのですが、やはりスキャナも含めて考えると各社の添付ソフトで評価も違います。
実際のところ例えば「瞬簡ファイリング」などでもOCR(AIさんのもの)がついていますし、そうすると価格も¥3,990とeTypistよりかなり安いということもあったりします。「DocuWorks」にもメディアドライブさんのがついています。
スキャナに関して言えば、こちらにもそういう類のソフトはついています。
なのでどれ買えば「わざわざ買うこともないのでは?」とも思います。(^^!