■お買い物するなら○アマゾンへGo!
ここではDocuWorksの出力のうちPDF変換関係のソフトに関してご紹介したいと思います。
DocuWorksは大変優れたツールですが、その内部フォーマットであるXdwはあまり普及していません。知名度からするとPDFに分があるのは否定できません。元々PDFは製版を意識したような形で発展してきたので、出力の自由度は大きな代わりに、とても重たいソフトに仕上がっています。一方、DocuWorksは製版というよりOffice文書を基本にしていますので、PDFほど多彩ではありませんが、軽いというOfficeでは必須条件を持っています。
ではOfficeならDocuWorksでいいじゃないか!!ということになりますが、知名度からすればやはりPDFで配布を行いたいところです。そこでXdwからPDFへの変換ツールが必要になります。
それならPDFWriterがあるじゃあないの?となり、これまた正しいことですが、ここでは特にDocuWorks文書の検索にこだわってみました。つまり探していたのは「DocuWorksでOCRしたものを正しく埋め込まれたPDF」です。OCRは検索用の意味なので完全でなくてもいいのですが、検索対象となることは必須だと思います。
一般的なPDFWriterを使うと画像の方は、正しくPDF変換されますが、透明テキストはついてきません。しかし、DocuWorks用と名前をつけたものでは、これをPDFに埋めることが可能です。
しかし、ここからが問題です。検索して探された文書の中身を検索できるかどうか?です。つまり透明テキストには位置情報も欲しい訳です。不思議なことにここに対応したソフトはありませんでした。このあたりは、それに対応したものがあればいいのですが...。
<追記>
2005.02にDocuWorks6.0が発売され、これらの機能は内蔵されました。しかし、位置情報は相変わらずそのままでした。今後に期待します。
HG/Pscan for DocuWorks(HyperGearさん) シェアウェア (PDF変換:PlugIn)

HG/Pscan for DocuWorks
 HyperGearさんの製品です。価格は¥6,930です。評価版はなぜかHyperGearさんのページは準備中のまま放置されていて、ベクターさんからDLできます。(体験版ではなく、購入しないと体験できないようです。)OCRの記載に関しては以下の通りでした。

HG/Pscan for DocuWorks では、DocuWorks Ver5.0 の機能で、OCR認識処理を行ったDocuWorks文書データをPDFに変換する場合、認識結果の文字情報をPDFの各ページの左上から透明テキストとして、 埋め込む機能が、標準で搭載されています。 従って、変換後のPDF文書を組み込んだ「全文検索システム」等で検索対象にすることが可能になります。

ということでやっぱり左上ではないかと思います。
PDFileMaster for DocuWorks(茨城ゼロックスさん) 製品(PDF変換:PlugIn)
PDFileMaster for DocuWorks
 これは茨城ゼロックスさんが開発されたPDF変換ソフトで¥10,290です。製品はパッケージ版だけで、評価版などは用意されていないようです。オンライン販売がないのはちょっと悲しいです。

で、OCR出力のPDF化で、他のPDFileMasterでは「文字位置貼り付け」とあるので期待して読みますと
■テキスト情報の付加
変換するXDW文書のテキスト情報を引き継いだPDFを作成します。
引き継いだテキストは透明でページ内の左上に縮小されて張り付きます。

というのが出てきてこれはやっぱり左上だけなのかと...。他を見るとできるような感じですし、一般ユーザには(ちょっと高いですが)良い価格なだけに残念でなりません。
PDFコンバータ for DocuWorks(YSSさん) 製品 (PDF変換:PlugIn)


PDFコンバータ for DocuWorks
 これはYSSさんのコンバータです。価格は¥11,550です。ダウンロードできるようなのですが、HPからはうまくできませんでした。

これもOCR結果のPDF化はできますが、位置までは反映されず、左上になるようです。

特徴としてはA0、A1、A2のPDFが作れるそうです。
簡刷★File(SoftFarm) Free (PDF変換:独立)
簡刷★File
 このソフトをPDF変換と呼ぶのかどうかは別として、そういう用途にピッタリするものです。PDFWriterはないので、Freeで揃えたいならPrimoPDFなどをインストールします。つまりは仮想プリンタ型のPDFWriterソフトをもってさえいれば上のソフトと似たように振舞います。
 このソフトは単純に「引数で与えられたファイルをそれに関連付けされたソフトで印刷し、指定したプリンタに出力する」というもので、汎用のものです。
例えば出力にPDFWriterを指定しておいて、DocuWorksのXdwを渡せば、そのファイルをPDF変換します。
 DocuWorksには外部コマンドの登録ができますから、PlugInのように振舞うことも可能です。
 勿論低機能(?)なのでOCR処理の反映などはできませんが、相手に渡すだけなら案外重宝するのではないでしょうか?
DocuWorksは大変まとまった良いソフトで価格もそこそこなのですが、外部に出したりサーバにあげたりする場合はどうしてもPDF変換を使っています。FreeのViewerがあるのはそのとおりなのですが、普及度の問題でPDFは大概入っています。
多くの場合はPDFWriterで事足ります。例えばWord文書をDocu化してもPDF化すると(検索上の)文字情報を埋め込むことが可能です。それらの価格もこなれてきており、Freeでもそこそこのものが入手できる時代です。これらは仮想プリンタを使うのでやや面倒なのですが、我慢できないほどでもありません。
不満と言えば..
そうなると、残るのは「なんとかOCR結果を文字位置にしたPDFの生成」になるのですが、現在のところ低価格ではないようです。話は変わりますが、クセロさんのePWareや瞬簡ファイリングも同様で左上に文字がかたまります。それらは「文書を探す」まではいいのですが、「文書の中からページを探す」のには不向きです。しかもこういう検索が必要なのはサーバなどだと思います。つまりそこにはこういう違和感のあるPDFを存在させたくないという気持ちが普通だと思います。
ちょっとサンプルを付けておきます。透明テキストですのでAcrobatで「編集−全て選択」としてください。意味がわかると思います。
@これが原本で直納☆のサンプル(モノクロ)
A左上にOCR結果があるPDF(クセロさんの瞬簡ファイリングで作成)
B文字位置にちゃんとOCR結果があるPDF(AIさんのPdStepで作成)
いかがですか?やはり文字位置にあるといいですよね。例えば検索で「高速」といれてみてください。その差歴然です。
なぜ?
簡刷★を作りながら「そういうことってできないのかな?」と考えていました。DocuWorksからPDFWriterに流すと、Wordなどはいいのですが、イメージXdwは問題になります。OCRの結果を埋め込むには
・OCRしてテキストを付ける
・それを抽出しておく
・PDFに変換する
・PDFの段階で抽出したテキストを透明でつける
とするのだと思います。ここまでなら、作れるメーカも多いのではないかと思います。(上のものは大抵そうなのではないかと思います。)幸いにしてDocuWorksにはOCRがありますからOCRまでは問題なさそうです。しかし、このあたりから良くわからない部分なのですが、テキストを抽出するAPIもありますが、ここには文字の位置情報が含まれません。しかし、DocuWorks上ではちゃんと位置再現しますのでOCRからは出力されているようです。つまり「文字位置情報が外部に取り出せない」ことでこうなっているのではないでしょうか?そうなると一番卑近距離なのは茨城Xeroxさんで内部資料でやっちゃえばできそうに思います。(^^!
無理やりでもやりたいなら...
代替手段ですが、結局画像を抽出してそういうソフトに投げた方が早いので、そっちをやっています。(またここで公開します。)
現状は...
・AIさんのpdMaker for ScanPaperの中のpdStepに画像を食べさせてOCR+PDFにするのが出力として良質に思います。ただAIさんのソフトはUIが多く、他に組み込むには向いていません。親切なのかな?
・クセロさんの瞬簡ファイリングなどは、AIさんのOCRエンジンですし、ちゃんと再現しても良さそうなものですが、これも左上につきます。これは期待していましたが、凄く悲しいです。(ePWareも一緒です。)
・やさしくPDFOCRというメディアドライブさんのものはやはり対話式UIとなぜかもったりした(抽出?)動作であることや、そういう土俵ならAIさんより価格もやや高いです。
もう少しいいのがあってもいいのですけど。