以前の記事で、スキャンされたPDFファイルを編集可能にする方法を紹介いたしましたが、「編集にとどまらず、TXTのように様式が入らないように抽出したい」という声をいただきました。他のところへコピー・ペーストする時の面倒をできるだけ避けたいでしょう。なかなか効率重視の方ですね。
そして本日はこういう方のために、スキャンされたPDFのテキストを画像や様式が入らないように抽出する方法、つまりTXTに変換する方法を紹介いたします。
使うソフトは前回と同じく、ワンダーシェアー社の「PDFelement」です。まずは無料ダウンロードして、下記の手順に従って変換してみましょう。
PDFelementで、スキャンした PDF ファイルを開きます。
スキャンされたPDFをTXTに変換するにはOCR処理が必要となりため、スキャンされたPDFファイルの追加が検出された場合、「OCRプラグインがインストールされていません」とのメッセージができます。 「ダウンロード」ボタンをクリックし、OCRプラグインをダウンロードし、インストールしましょう。
OCRのインストールが完了後、内容によって言語やページのカスタマイズを設定します。設定完了後、「次」をクリックし、OCRを実行します。変更プロセスには時間がかかります。
OCRの実行が完了後、ファイルを保存します。「ホーム」タグをクリックすると、ツールバーに入ります。「他の形式」のボタンをクリックします。ここでは、「テキストに変換」をクリックします。変換が完了後、保存先で変換後のTXTファイルを確認しましょう!元のスキャンされたPDFファイルになる画像やテキストの様式がTXTファイルでクリアされ、テキストのみが変換されましたため、他のところへのコピー・ペーストが便利になりますね。
いかがでしょうか。もともと編集不能のPDFファイルも編集可能になっただけではなく、ちゃんとテキストも抽出されました。
そしてスタイリッシュなユーザーフェース、操作画面のわかりやすさもさぞご共感でしょう。下記よりダウンロードし、早速PDFをTXTに変換してみては?
スマートに、シンプルに、AI 搭載 PDF ソリューション
・ 第19回、24回、29回Vectorプロレジ部門賞受賞
・ 標準版からプロ版まで、幅広いのニーズに対応
・ Windows、Mac、iOS、Android、クラウドに対応
・ 7x12h体制アフターサービス
この文書または製品に関するご不明/ご意見がありましたら、 サポートセンター よりご連絡ください。ご指摘をお待ちしております!
役に立ちましたか?コメントしましょう!