第7回 PDFのデータ活用 ― テキストコピーと検索 ―

PDFの扱える文字

Windows上で扱える文字(フォントがある文字)ならほぼすべてPDFは利用できると考えてよいでしょう。こうした仕組みのおかげでパソコン上で扱える言語の印刷物をPDFにすることができます。
 例えば、Webブラウザで様々な言語のWebページを表示し、それらのページをPDFに保存することができます。そうしたPDFは、後から文字を検索することや、文字をコピーして再利用するといったことができます。1ページの文書の中に違う言語が混ざっていても、検索や文字のコピーが特に意識せずとも簡単にできます。普段通りPDFを作成するだけで、特段何か設定するといった必要はありません。
 ただ、こうした多言語環境の仕組みを、メーカーによっては十分生かし切れていないソフトウェアがあります。海外のソフトウェアメーカーによっては、日本語がまれに文字化けするケースが見受けられますし、逆に国内メーカーのソフトウェアが多言語環境に対応できていないケースがあります。
 この辺の信頼性を担保する必要がある場合、多言語展開に実績のあるメーカーの製品を慎重に吟味・選択することをお勧めします。

コピーや検索ができないPDFとは

PDF上に文字が書かれているのに、文字の選択や文字のコピーができないことがあります。よくあるケースは下記の通りです。

●スキャンしたPDF

文字部分が写真のようなビットマップ画像になっていて、コピーや検索に必要なテキスト情報が含まれていません。

●文字部分が線画で作られている

アウトライン文字ともいいます。ビットマップ画像と違い拡大しても荒くならないので、一見して見分けがつきません。

●文字が特殊なフォントで表示されている

PDFの仕様に準拠していないフォントや検索に必要な情報を持っていない文字になっている場合、コピーしても文字を取得できず、検索もできません。

●セキィリティ設定で検索不可、テキストのコピー不可となっているPDF

これらのPDFをパッと「見分ける」ことはできず、経験や知識が必要です。ひどい場合はPDF内部の解析が必要になります。

PDFの大発明「透明テキスト」と「サーチャブルPDF」

スキャナーなどでスキャンして作成したPDFは、スキャンしたイメージ画像がそのままPDFになった状態ですが、製品によっては、文字部分に見えない文字が配置されている場合があります。「透明テキスト」といわれているもので、OCRを使ってスキャンしたイメージから文字を認識し、画面では表示されないように工夫した文字を、PDF上の画像の文字の近くに配置する仕組みです。
 最近、コピー機の中にスキャナーやプリンター機能を持たせた「複合機」と呼ばれる機種が増えてきました。この機械で紙をスキャンして電子化するといった運用も最近多いと思います。このような複合機でスキャンして作られたPDFは、スキャンと同時にOCR処理を行い、見た目はスキャンしたイメージのままのPDFでありながら、文字を検索することができるPDF(サーチャブルPDF)として保存できる機種が増えています。
 ところで、OCRは今のところ精度が今一つなのですが、仮に将来OCRの性能が飛躍的に高まったら、もう一度OCR処理して以前に配置した透明テキストを削除し、新しい透明テキストを配置しなおすといったことがサーチャブルPDFなら可能でしょう。こうした柔軟な対応もPDFの良さといえます。

記事一覧を見る
ページ先頭へ