スキャナやスマホのカメラで撮影した画像PDFから文字を手打ちするのは、時間がかかる上に入力ミスしてしまう危険性も高いです。
この記事では無料で手軽にPDFのテキスト化をしたい方へ向けて、Googleドライブを利用した文字起こし方法について解説します。
また、「レイアウトを崩さず、PDFをそのままデジタル化したい」とお考えの方には、GoogleドライブよりもPDF専用ソフト「PDFelement」がおすすめ。AI搭載ソフトの高精度なOCR機能が文字を正確に読み取り、編集可能なPDFデータへ変換します。無料トライアル版も提供されているので、ぜひダウンロードしてみてください。
Googleドライブは、主にファイルの保存・共有に用いられますが、画像やPDFから文字を読み取りテキストデータへ変換するOCR(光学文字認識)機能も搭載しています。
アップロードされたPDFファイルから文字を読み取り、Googleドキュメント形式で表示することによって書き起こされた文章を確認できます。特別なソフトをインストールする必要がなく、アカウントさえあれば無料で使えるため、今すぐ手軽に文字起こししたい人におすすめです。
実際にGoogleドライブを利用して、PDFや画像データから文字を抽出する使い方を解説します。
Googleアカウントを使ってGoogleドライブにログインしたら、まずは文字を抽出するPDFファイルをアップロードします。
アップロード方法はファイルをドラッグ&ドロップするか、画面左上にある「新規」ボタンから「ファイルのアップロード」を選択してください。
新しいフォルダを作成してからアップロードすると、他のファイルに紛れて見つけられなくなるミスが防げますよ。

アップロードされたファイルが表示されたら、右クリックしてメニューを表示し、「アプリで開く」>「Googleドキュメント」と選択してください。

もしくはファイルリスト右側の「︙」ボタンを押してメニューを開き、同様に「アプリで開く」>「Googleドキュメント」を選びます。

いずれかの方法でGoogleドキュメントを開くと、新しいタブに遷移して以下の画面でテキスト変換作業が始まるので完了するまで待機しましょう。
なお元データとは別にGoogleドキュメントファイルが生成されるため、元データに編集が加えられたり削除されたりする心配はありません。

OCR処理が完了すると、Googleドキュメントに変換された文字が表示されます。画像データを処理した際は、上部に元の画像データ、下部に読み取った文字、という構成となります。
テキストデータは選択やコピーが可能になっているため、他のファイルへのコピペなどに活用しましょう。
なおメニューの「ファイル」から「ダウンロード」を選択すると、Wordやテキストファイル形式でのエクスポートもできます。

GoogleドライブのOCRは無料で使えて便利ですが、決して万能ではありません。PDFのテキスト化にあたっては主に4つの注意点やデメリットが存在するため、変換前に確認しておきましょう。
Googleの公式ヘルプにおいては、文字起こしするのに適したファイルとして以下の要件が推奨されています。
より正確に読み取るための要件にすぎないため、上記に当てはまらなくても文字起こしがうまくいくケースはあります。実際に筆者が2MBを多少超えたデータでテストしてみたところ、問題なくテキストに変換されました。
しかしさらに容量の大きいPDFで検証したところ、100ページを超えたあたりで変換が中断されてしまいました。公式には明記されていませんが、ページ数や容量には一定の制限がかけられているようです。

文字認識能力が比較的優れているGoogleドライブのOCR機能ですが、それでも100%確実に文字起こしできるわけではありません。
以下のような文字だと、特に精度が落ちてしまう傾向があります。
活字と異なり書き方が一定ではない手書き文字は、正しいテキストを解析するのが難しく、認識率が大きく低下します。
一般的なテキストとは字体が異なるフォントも、同じような理由でうまく認識しない可能性があるので注意してください。
表やグラフ、イラストなど複雑なレイアウト・段組みが含まれている場合、Googleドキュメントで開くときに見た目が大きく崩れてしまいます。
出力されたデータをよく見てみると、請求書では各項目が少しずつ階段状にずれてしまうケースが見受けられました。
フォントサイズや色も再現されているわけではなく、元の見た目とは相違してしまいます。

また画像付きのマニュアルでは、本来1ページに収まるはずの内容なのに、少しずつ次のページにはみ出してしまっています。
レイアウトが崩れて読みづらく、また見た目も悪くなるため、他の人へ共有するケースなど資料を再利用したい場合には不向きです。

GoogleドライブのOCR機能は、文字起こししたドキュメントを別に作成するものであり、PDFファイル自体を検索・選択可能にするものではありません。
したがって次のような業務のデジタル化を高度に進めるためには、Googleドライブだと力不足です。
上記のようなケースでは、PDF自体に文字情報が埋め込まれた「透明テキスト付きPDF」を出力する必要があります。Googleドライブでは対応しておらず、後述する「PDFelement」などの高機能なPDF専用ソフトを利用しなければなりません。
Googleドライブはあくまでも画像やPDFに写った文字を抜き出すためのツールであり、ファイル自体を高機能にするわけではないことを理解しておきましょう。
無料で使えて便利なGoogleドライブですが、レイアウト崩れやファイルサイズ制限、ドキュメントファイルへの変換が必要といった様々な弱点もあります。
Googleドライブでのテキスト化では物足りないという方には、さらに高機能なOCR機能を備えたPDF専用ソフト「PDFelement」がおすすめです。
GoogleドライブとPDFelementの主な違いは、次の表のとおり。
|
OCR機能の比較 |
Googleドライブ |
PDFelement |
|
ファイルサイズ の制限 |
推奨サイズは2MBまで |
実質的な制限無し(PCスペックに依存)。アプリでは100MBまで |
|
レイアウト保持 |
大きく崩れる可能性がある |
レイアウトを保ったままテキスト化 |
|
一括処理機能 |
1ファイルずつしか処理できない |
バッチ処理機能を搭載 |
|
検索・編集可能な PDFの作成 |
不可 |
可能 |
|
出力ファイル形式 |
Googleドキュメントのみ |
PDFのほか、WordやExcel、PowerPointなどにも変換 |
|
テキスト化ファイル の編集機能 |
編集不可 |
OCR処理したファイルをそのまま編集する機能を搭載 |
次にPDFelementが搭載しているOCR変換の特徴について、より詳しく解説します。

PDFelementはあらゆるタイプの文書や文字を高い精度で認識し、テキスト化するだけでなく、文書の見た目もそのまま維持できるのが強みです。
独自のAI機能「Lumi」を搭載しており、高性能なOCRエンジンが日本語や英語など約39言語を正確に読み取ります。
手書き文字の認識にも対応しているため、手書きの申込書やアンケート、議事録メモなどのデータ化も簡単です。
またGoogleドライブが苦手としている次のような複雑なレイアウトを含んだ書類も、見た目を維持したまま正確なデジタル化が可能です。
OCR処理後の手直しにかかる時間を削減できるので、効率的な資料作成につながる点も大きなメリットといえます。

たくさんの画像が用いられている大容量ファイルの処理や、多くのPDFファイルをまとめて文字起こしできるのもPDFelementの優れた点です。
試しにパソコン版で1,500ページ・100MB以上のファイルを処理してみたところ、時間はかかりましたがしっかりと処理してくれました。書類ごとに開くような動作は不要なので、大量のデータ処理が必要な業務であれば劇的な効率化が見込めます。

PDFelementのOCR処理は単にテキストを抽出するほかに、透明テキストを埋め込んだ編集可能なPDFファイルへの出力オプションも搭載。そのため元々は画像だったデータでも、文字や図表を文書編集ソフトと同じ感覚で編集できます。
例えば元データが古い紙の資料しかなくても、PDFelementでテキスト化したPDFに修正を加えれば、最新版の資料としての再活用につながります。
もちろんレイアウト構造なども紙資料を再現しているため、必要な修正は最小限です。単なる文字起こしや抽出だけでなく、その先の活用まで考えている方には頼りになるソフトです。
実際にPDFelementのパソコン用ソフトや、スマホ版アプリを利用して、PDFファイルを文字起こしする手順を解説します。


なお、今回は以下の画像からPDFelementでテキストを読み取ってみました。

PDFelement OCR処理の結果と比較してみると、約1,200文字の文章に対して誤字はおよそ1%程度しかなく、99%の文字は正確に読み取れていました。

誤認識のほとんどはふりがなのサイズが小さすぎて認識できなかったケースであり、本文での誤りは数文字しかありません。
また表などが含まれた資料であっても、見た目を崩さずに高い精度でテキストを読み取れることが分かります。



アプリでのOCR処理の結果が以下の画像となりますが、パソコン版にも全く引けを取らない、高い精度での文字起こしが確認できました。
OCR機能はPDFelementの無料トライアル版で試せます。GoogleドライブでのOCR処理に限界を感じた方はぜひダウンロードしてみてください。

GoogleドライブでOCR機能を使う際につまずきがちなポイントや、使い方に関する疑問について回答します。
OCR処理を行う前に、画像を補正したり明るさを調整したりすることで、文字認識精度を上げられます。
うまくテキストを読み取れない場合には、以下のような前処理を試してみてください。
ただしGoogleドライブには画像に下処理を施す機能がないため、他の画像加工ツールなどを使う必要があります。
PDFelementの場合は背景の削除や文字の濃度調整を行う機能があり、ソフトを切り替える必要なくより正確な読み取りをサポートしてくれます。

アプリ版のGoogleドライブには「Googleドキュメントで開く」操作が存在しないため、OCR機能は使えません。
裏技的な方法としては、SafariやChromeなどのブラウザからGoogleドライブのPC版サイトを表示すればOCR処理の実行は可能です。

ただしスマホで無理やりPCサイトを表示させているため、画面は小さく操作性がよくありません。
スマホからでも頻繁に使用する方には、スマホ対応のOCRアプリをインストールしておくとスムーズです。
Googleドライブで文字起こしするときには、ファイルごとに「選択」>「Googleドキュメントで開く」の動作を実行しなければなりません。
アップロードしたPDFファイルを複数選択して右クリックメニューを開いても、「Googleドキュメントで開く」が表示されないからです。
また文書を1つに結合してから文字起こししたとしても、データ容量制限に引っかかってしまう可能性もあります。
PDFelementでは一括処理でOCR処理を行う機能を搭載しているため、わざわざ1ファイルずつ操作する必要はありません。
大量のファイルをまとめてテキスト化したい場合は、専用ソフトの導入を検討してみてください。
オフライン状態ではGoogleドライブにファイルをアップロードできず、また「Googleドキュメントで開く」も表示されません。
Googleドライブはオンラインストレージサービスであり、ほとんどの機能がオンライン専用です。
アップロードするためにも、すでにドライブに保存してあるファイルをテキストに変換するためにもネットに接続されている必要があります。
通信状況の悪い場所やWeb上へアップロードが難しい機密情報もOCR処理したいなら、オフラインでも文字起こし機能も備えたPDFelementがおすすめです。
今回は、Googleドライブを使ってPDFのテキスト化を行う方法について解説しました。主なポイントは次のとおりです。
Googleドライブは無料で使えるうえに、簡単な操作でPDFや画像からテキストを抜き出せます。
一方で「修正に時間がかかるから、レイアウトを崩したくない」、「検索や編集ができるよう、PDF形式のままテキスト化したい」とお悩みの方も多いでしょう。
PDF専用ソフト・アプリのPDFelementなら、表やデザインのレイアウトを崩すこともなく、データ整理に役立つ透明テキストの埋め込みも可能です。
PDFのテキスト化・大容量ファイルのOCR処理・文書のデジタル化に困っている方は、ぜひ今すぐダウンロードしてOCR機能を試してみてください。
この文書または製品に関するご不明/ご意見がありましたら、 サポートセンター よりご連絡ください。ご指摘をお待ちしております!
役に立ちましたか?コメントしましょう!