作業をしていると、PDFからテキストを抽出したいという場面は結構出くわします。MacではAutomatorを使って抽出する方法が一般的ですが、余分な文字が入ってしまったり、文字化けが発生することがあります。そのため、確実に行うためにはコピー&ペーストを使いますが、ページ数が多ければそれなりの手間がかかってしまいます。さらに、テキストがコピーできない場合キャプチャもあり、中々簡単にとはいきません。
そこで、今回はそうした手間をかけず、簡単にMacでPDFをテキスト化する方法を紹介したいと思います。
【MacでPDFをテキスト化する方法】
今回は「PDFelement Pro(Mac)」というソフトを使用します。以下のボタンからダウンロードができます。
有料版にすればすべての機能が制限なく自由に使えます。試用版は制限はあるものの十分な機能が使えますので、もし使ってみて気に入れば有料版にするといいでしょう。また、Windows版もありますので、Windowsユーザーの方もこのソフト一つで対応できるでしょう。
PDFをテキスト化する効果を検証!
↓こちらは元のPDFファイルです。↓こちらは抽出されたテキストです。
MacでPDFからテキストを抽出する方法を紹介しますので、以下の手順に従って「PDFのテキスト化」を体験してみてください。
Step1. 抜き出したいPDFを開く
「PDFelement Pro(Mac)」を開いて、「編集」もしくは「変換」を選択し、指定のファイルを開いてください(Finderから直接開く場合は、開くアプリケーションを「PDFelement 6 Pro(Mac)」にしてから開く)。
Step2. エクスポートを選択
メニューバーから選択する方法:PDFを開いたらメニューバーから、「ファイル>エクスポート>テキスト」の順に選択してください。
ツールバーから選択する方法:ファイルを開くと、上部にツールバーが表示されます。その中から「エクスポート」を選択してください(デフォルトでは一番右に配置されています)。すると、ファイル名の下にツールバーが出てきます。その中から「Text」を選んでください。
Step3. オプションを選択
選択すると、画面右方向から設定画面が出てきます。抽出するページ範囲を選択したい場合は、「オプション」を選択して、抽出するページを指定してください。特に指定しない場合は、そのままで大丈夫です。
※もし、文字が画像として認識されている場合、そのままでは出力できません。編集画面で、文字が編集できる状態になっていなければそのままでは出力できません。設定画面でOCR処理をかけることができますので、ドロップダウンリストから該当する文書言語を選びます。特殊な言語を使っているのでなければ、基本的にはそのままで構いません。OCR言語を選択してからステップ4に進んでください。
Step4. PDFからテキストを出力
変換ボタンを押すと出力先選択ダイアログが出ますので、出力したいフォルダを選択してください。テキストがページ毎に区切られた形で出力されます。※ただし、試用版では最大5ページまでしか抽出できません。有料版を購入すれば無制限に抽出が可能ですので、ページ数が多い場合は、有料版にしてください。
PDFをテキストに変換するのが完了してから、テキストファイルを確認しましょう。
PDFをテキスト化できるMacソフトの使い方まとめ
MacでPDFをテキスト化する方法:
- 無料体験版のPDFをテキスト化できるソフト「PDFelement Pro(Mac)」をダウンロード
- PDFファイルを「PDFelement Pro(Mac)」にインポート。
- テキスト出力形式を選択し、変換設定をします。
- 「変換」ボタンをクリックして、自動的にPDFからテキストを抽出するのが開始します。
以上はMacでPDFをテキスト化する手順です。いかがでしょうか。この方法を使えば、自分で特殊なスクリプトを組んだり多数のソフトを組み合わせたりせずとも、望んだテキスト抽出が簡単できます。また、出力はテキスト形式に限らず、他のファイル形式への出力も簡単に行えます。Office製品はもちろんのこと、ePubやHTML形式での出力も可能です。MacとWindowsの両方に対応していますので、ぜひ一度試してください。
役に立ちましたか?コメントしましょう!