はじめに
スキャナでスキャンして作成した文書PDFの中身をテキスト検索したい、テキストをコピーしたい、という場合がありますよね。しかしながら、スキャンして作成したPDFは文書であっても画像なので、テキスト検索やテキストコピーはできません。この問題を解決するために使われるのが透明テキスト付きPDFです。
以下では透明テキスト付きPDFとは何か、そのメリットと用途、作成/編集方法等について説明します。
目次:
1. 透明テキスト付きPDFとは?
透明テキスト付きPDF (Searchable PDF)とは、PDFのページ上で目に見える文字の位置に、目に見えない(透明の)テキストを重ねて配置したPDFファイルです。このテキストは透明なので目には見えませんが、画像データの文字部分を選択すると、透明テキストの文字情報を選択できます。
透明テキスト付きPDFのメリットは以下のとおりです:
①全文検索: 透明テキスト付きPDFは、PDFファイル内の内容を全文検索できるため、特定のキーワードやフレーズを素早く見つけることができます。
②テキスト抽出:透明テキストが重ねられているため、PDFファイルの内容をテキストとして抽出できます。これは、文書の再利用や編集に便利です。
③音声読み上げ: 透明テキストを利用して、PDFファイルの内容を音声で読み上げることができます。視覚障害者や朗読アプリケーションのユーザーにとって有用です。
④情報漏洩の防止:透明テキストで重要な情報を埋め込んでおき、相手に気づかれずに渡すことができます。情報漏洩時に相手を特定する手段として活用できます。
これらのメリットを活かすことで、以下が可能となります。
①書類の仕分けやファイリングの効率化
②書類保管スペースの節約
③テキスト検索を利用した、必要な情報のスピーディーな取り出し
④領収書などをスマホで撮影して電子化し保存
2. 透明テキスト付きPDFの作成方法とは
以下に、透明テキスト付きPDFの作成方法をいくつか説明します。
2.1 Microsoft Office文書を直接透明テキスト付きPDFに変換
ExcelやWordなどのMicrosoft Office文書作成ソフトで作成した文書を、直接PDFに変換した場合には、PDF保存時にテキストデータも一緒に埋め込まれて保存され、自動的に透明テキスト付きPDFとなっています。ただし、このPDFは「透明テキスト付きPDF」には含まず、後述の2.2のPDFだけを「透明テキスト付きPDF」と呼ぶ場合もあるようです。
いくつかの方法とその手順を紹介します。
(1)Office文書からのエクスポート
ExcelやWordなどのMicrosoft Office文書データを開き、「ファイル」から「エクスポート」を選択し、「PDF/XPSの作成」をクリックします。
(2) OSに標準装備されている仮想プリンタへの出力
WindowsにもMacにもPDF仮想プリンタが標準装備されています。Windowsの場合は「ファイル」→「印刷」でプリンタ一覧から「Microsoft Print to PDF」を選択し、「ページ設定」等で適宜設定を行い、「印刷」ボタンをクリックすれば透明テキスト付きPDFが作成されます。
(3)フリーの仮想プリンタドライバを利用する
CubePDF、Soda PDF、doPDF等を用いれば、上記同様に透明テキスト付きPDFの作成が可能です。
(4)PDF編集ソフトを利用する
Adobe Acrobat proをはじめ、PDFelement、Foxit PDF Editorなど多くの有料/無料ソフトがあります。
(5)オンラインPDF変換ツールを利用する
iLovePDF、PDF24、SmallPDFなど、多くのオンラインツールがあり、いずれもファイルをアップロードして変換し、PDFファイルをダウンロードする形式です。
2.2 OCRを利用して透明テキスト付きPDFに変換
紙の書類を画像のみのPDFにし、それをOCRで透明テキスト付きPDFに変換します。まず画像のみのPDFを作成する方法です。
(1)スキャナやプリンタ複合機を使用する方法:
スキャナやプリンタ複合機を使って、書類をデジタルイメージに変換し、PDFフォーマットで保存します。この
(2) スマホやタブレットを使用する方法:
スマホやタブレットにCamScanner、Microsoft Lensなどスキャナアプリをダウンロードし、書類を撮影してトリミングや調整を行い、PDFフォーマットで保存します。
次にこの画像のみのPDFをOCR機能で透明テキスト付きPDFに変換します。
(1)OCR機能のあるソフトを利用する方法
Acrobat Pro DC、PDFelement、読取革命などのOCR機能を使い、上記(1)(2)のPDFを透明テキスト付きPDFに変換します。ここではオールインワンPDF編集ソフトPDFelementを利用した作成手順を説明します。
①PDFelementを起動し、PDFを読み込みます。
②「OCR処理」のボタンをクリックします。
③OCR設定画面が表示されるので、「画像をスキャンして検索可能テキストに変換」を選択し、その他必要な設定を行い、「適用」をクリックすれば、画像はそのままで、透明テキスト付きPDFに変換されます(ここで「スキャンして編集可能なテキストに変換」を選択すれば、画像も通常のテキストに変換されます)。
(2)オンラインOCRを利用する方法:
iLovePDF、Convertio、PDF24などのOCR機能を使い、上記(1)(2)のPDFをアップロードして透明テキスト付きPDFに変換します。
3. 透明テキスト付きPDFの編集方法とは
透明テキスト付きPDF も、PDF編集ソフトを用いて編集することができます。ただし、OCR処理をして画像をそのままで透明テキストを付加したPDFの場合、テキストが見えないので編集には一工夫が必要です。
以下にPDFelementとテキストエディタを使用した編集手順を説明します。
①PDFelementを起動して透明テキスト付きPDFを開きます。
②編集したいテキスト部分をドラッグして右クリックし、「コピー」を選択します。
③メモ帳などのテキストエディタを起動して貼り付け、編集します。
④編集結果をPDFに貼り付けます。
4. 透明テキスト付きPDFについてよくある質問
Q: 透明テキスト付きPDFのデメリットは?
A: 透明テキスト付きPDFのデメリットは以下の点です:
①ファイルサイズの増加: 透明テキストを重ねたPDFは、通常の画像よりもファイルサイズが大きくなります。これは、テキスト情報を埋め込むために追加のデータが必要だからです。
②OCRの精度: 透明テキストを作成するために使用されるOCR(光学文字認識)技術は、テキストの正確性に影響を与えます。一部の文字や単語が誤認識される可能性があります。
③セキュリティリスク: 透明テキストで重要な情報を埋め込んでおく場合、セキュリティ上のリスクがあります。第三者が透明テキストを解読することで、機密情報が漏洩する可能性があります。
④編集の制限: 透明テキスト付きPDFは、テキスト情報が画像上に重ねられているため、編集が難しい場合があります。テキストの修正や追加が必要な場合、元の画像を再スキャンして透明テキストを再作成する必要があります。
これらのデメリットを考慮して、透明テキスト付きPDFを使用する際には慎重に判断する必要があります。
Q:検索すると結果が間違っていることがあるのはなぜですか?
A:OCRの認識精度は使用するツールや、もとの原稿に左右されます。手書きではなく、パソコン上で作成された原稿なら、高精度なOCRができる可能性が高いです。大量の資料をスキャンするときは、スキャン代行サービスに依頼することも考えましょう
Q:透明テキストの品質向上にはどうすればよいですか?
A: 以下により、透明テキストの品質を向上できます。
①高品質なスキャン: 原稿のスキャン時に高解像度でスキャンすることで、OCRの精度が向上します。
②OCRソフトウェアの選択: 高精度のOCRソフトウェアを使用することで、認識率を向上させることができます。
まとめ
ここでは透明テキスト付きPDFとは何か、そのメリットと用途、作成/編集方法等について説明しました。
オールインワンPDF編集ソフトPDFelementを用いれば、写真画像のPDF化から画像PDFのOCR処理と透明テキスト付きPDFの作成と編集まで全てが可能です。無料体験版が用意されているので、是非その使い易さを体感してください。
役に立ちましたか?コメントしましょう!