Home > 活用Tips > スキャンしてPDFelement 6 ProのOCR機能を使いましょう

後からPDF編集するための「書類をスキャンする時のコツ」を紹介!

家庭用プリンターも複合機が普及しており、書類をスキャンしてPDFにすることが簡単になりました。家庭用プリンターに付属しているソフトは簡易版ということもあり、OCR処理ができない場合もあります。紙の書類をスキャンしてPDFファイルにしてもその後にテキストのデータ化となると専用のソフトが必要になる場合が多々あります。

OCR処理のソフトを購入するときに多くの人が確認することが「識字率」です。現在販売されているOCR処理ソフトは95%以上となっています。これはソフト側の標準設定の場合ですが、OCR処理に関しては記載されていません。識字率95%というのは1000文字のうち50カ所は間違いがあるという可能性を示しています。100%に近いソフトを選ぶようにしたいものです。

後でPDFのOCR処理の精度を高まる!書類をスキャンする時のコツ

書類をスキャンする時のコツ①

OCR処理を行う場合、事前にソフトの設定を確認するだけではなく、書類をPDF化、あるいは入手したPDF書類を確認するところから始まっています。この確認が読み取り精度を左右します。

PDF書類が全て文字の場合、書類を構成している文字の書体を確認します。書体とは明朝体、ゴシック体などのことです。ビジネス文書の文字は多くの場合、明朝体、強調したい文字をゴシック体などで表記することが多いのですが、気をつけたいのはゴシック体です。ゴシック体は文字が小さい場合、スキャンしたあとの文字認識で記号になってしまうことがあります。画数の多い漢字をゴシック体で表記してしまうと文字が潰れてしまい、OCRで正しく認識できなくなってしまうからです。

明朝体でも極端に画数の多い漢字や、普段使用することがまれな漢字は認識精度が落ちてしまうので注意が必要です。書類で使用する書体はスキャンの設定を変更したり調整したいすることができないため、読み取り設定の範囲を狭くするなど工夫を必要とするところです。

書類をスキャンする時のコツ②

スキャンする書類そのものが白色度の低い再生紙の場合、全体が黒っぽくなってしまい、用紙の不純物を文字や記号と認識してしまう可能性があります。読み取り用紙の種類を設定できるスキャナーであれば、用紙の設定をあらかじめ変更しておくようにしましょう。

白色度が低い再生紙、くっきりと折り目などが付いている書類をPDF化するときは複合機で読み取り制度を「薄く」に設定するとPDF化するときにOCRで読み取りやすくなります。読み取り精度の確認は複合機で書類を一度コピーして印字具合を確認してみてもいいでしょう。

書類をスキャンする時のコツ③

PDFの中にはカラー原稿が含まれていることが多くなりました。OCR処理の制度を高めるためには白黒原稿化するようにしたいものです。スキャン設定でカラーか白黒かを選ぶことができる場合は白黒、機種によってはモノクロとなっているかもしれませんが、設定を変更するようにしましょう。

カラー原稿の場合、黄色、ピンク、水色などは文字とも記号とも認識ができない場合があります。元々の文字が小さい、印字が潰れている場合は最後の手段として書類をスキャンするときに拡大コピーのように等倍ではなく150%から200%など倍率を大きく設定しスキャンするようにしましょう。

OCR処理としては格段に処理しやすくなります。識字率もよくなります。PDFファイルサイズとしては大きくなりますが、画数の多い漢字などの識字率があがり、データ化されたテキストを訂正する手間がなくなります。

    今後も紙の書類をスキャンしてPDF化、OCR処理をする機会が増えていくことでしょう。また、元の書類を作成するソフトにもPDF化して保存する機能が備えられているのが一般的になりました。せっかくOCR処理を行うのであれば、その後の作業の手間を減らし、効率化を図るように手早く設定ができるようになりたいものです。

PDF編集はこれ1本でOK | PDFelement

Wondershare PDFelement

スマートに、シンプルに、AI 搭載 PDF ソリューション

・ 第19回、24回、29回Vectorプロレジ部門賞受賞

・ 標準版からプロ版まで、幅広いのニーズに対応

・ Windows、Mac、iOS、Android、クラウドに対応

・ 7x12h体制アフターサービス

役に立ちましたか?コメントしましょう!

登録 / ログイン してからコメントを書いてください
user
{{item.name || userName}}
{{item.time}}
{{item.message}}
{{item.likes}} 返信をキャンセルする 返信
登録 / ログイン してからコメントを書いてください
user
{{item1.type == 2 ? authName : item1.name ? item1.name : userName}}
{{item1.time}}
@{{item1.reply_to_type == 2 ? authName : item1.reply_to_name ? item1.reply_to_name : userName}} {{item1.message}}
{{item.likes}} 返信をキャンセルする 返信
登録 / ログイン してからコメントを書いてください

作成日: 2017-08-07 14:17:44 / 更新日: 2023-02-16 10:53:58

お問い合わせ

この文書または製品に関するご不明/ご意見がありましたら、 サポートセンター よりご連絡ください。ご指摘をお待ちしております!

スマートに、シンプルに、
AI搭載PDFソリューション