Home > ランキング・レビュー・比較 > 文書のデジタル化における強い味方!OCRの精度を上げるには

文書のデジタル化における強い味方!OCRの精度を上げるには

ペーパーレス化の実現や業務の効率化に欠かせない技術の1つがOCRです。しかしOCRも万能ではありません。人間なら簡単に読み取れる文章でも、OCR機能でうまくテキストに変換できないことがあります。この記事では、OCRの精度を上げて上手に使いこなすためのポイントを紹介します。

目次:



Part1.そもそもOCRとはどんな機能なのか?


OCRとは「Optical Character Recognition/Reader」の略で、日本語では「光学文字認識」などと訳される技術のことです。紙の書類をスキャナーやカメラを使ってパソコンに取り込む場合、取り込んだ書類のデータは画像として保存されます。画像データのままでは書類に書かれている文字をテキストとして編集できませんし、検索やコピー&ペーストなどの機能も使用できません。画像データにOCR処理を施すことで、画像のなかにある文字をパソコンで認識できるテキストとして抽出できるので、パソコンで入力した文字と同じように文字編集や検索などが行えるようになるのです。


OCRを活用することで、書類のペーパーレス化にともなう面倒な事務作業を削減することが可能です。OCRに頼らずにペーパーレス化を実現するには、書類を1枚ずつ手作業で入力する必要があります。OCRを活用すれば、書類をスキャンした後のテキスト化作業の多くをOCRに任せることができるため、空いた時間をより有意義に使えるようになるでしょう。また書類をスキャンしOCRを使ってテキスト化することで、書類の検索が簡単になったりデータ活用の幅が広がったりするメリットもあります。


PDF OCR Wins



Part2. OCRも万能ではない!OCRの精度を下げてしまう要素


OCRの活用によるペーパーレス化や業務効率化の成功を左右するのが文字認識の正確さです。OCR技術は、手書きの文字が読み取れるようになったりAIが導入されたりと日々進化しています。その進化にともない文字認識率も着実にアップしていますが、そんなOCRでも読み取りに苦戦する文書があります。


たとえば、OCRはカラーの文字やかすれている文字を認識するのが苦手です。これはOCRがはっきりと読み取れる文字の認識を得意としているためです。白い紙に黄色やピンクのカラーマーカーで文字を書くと、チカチカして見にくいと感じることがあると思います。これと同じで、OCRもぱっと見て認識しにくい色の文字の認識は不得意なのです。また網かけされている文字もOCRでの認識率が低くなります。網かけを施すと模様部分と文字とのコントラストが低下するため、OCRでうまく読み取れなくなるのです。


またOCRは縦書きと横書きが混ざっている文書の認識も苦手といわれています。OCRは文字が一定の方向に並んでいる文書の認識を得意としています。そのため、縦書きと横書きが混在していたり文字が斜めに並んでいたりすると、文字列をうまく認識できず認識率が低下してしまうのです。


PDF OCR Wins

さらには文字と文字の間隔が詰まっている文書もOCRの文字認識率が下がりがちです。文字の間隔が狭いと、どこからどこまでを1つの文字として認識すれば良いのか判断しにくくなり、OCRの精度が下がってしまいます。この他にも、特殊文字や機種依存文字が使われている文書や日本語と英字が混在している文書なども文字認識率が低下します



Part3. OCRの精度を上げるためにできる工夫とは?


OCRの精度を上げるには、まず書類をスキャンするときの解像度を上げるのが近道です。先ほど紹介したように、OCRははっきりと読み取れる文字の認識を得意としています。高解像度でスキャンすることに文字がよりすっきり見えるようになるので、結果的にOCRの認識精度が向上するのです。


しかしいくらOCRの精度が向上するからといって、むやみやたらに解像度を上げてスキャンすれば良いというわけでもありません。なぜなら、スキャン時に解像度を上げれば上げるほど読み取りにかかる時間が長くなるためです。読み取りにかかる時間が長くなるほど作業は滞りがちになるため効率的ではありません。OCRの認識精度とスキャンにかかる時間を天秤にかければ、200~300dpi程度の解像度が適切でしょう。


またOCRの認識精度を上げるには、書類を白黒でスキャンするのも有効です。OCRはカラー文字の認識が苦手なため、書類の文字を白黒でスキャンすることにより、OCRの精度向上につながるのです。しかし、ピンクやオレンジなど明るい色の文字が文書に使われている場合、白黒でスキャンしても文字がグレーで読み込まれるだけで、結局OCRで認識しにくい文字のままになってしまうこともあります。


PDF OCR Wins

そんなときには、スキャンした画像のコントラストや明るさを調整すると良いでしょう。画像編集ソフトを活用すれば、ぼんやりした文字をくっきり認識できるようにしたり、模様で見にくくなっている網かけ文字を認識しやすくしたりできます。


さらにはスキャンするときの書類の向きもOCRの精度を高めるために重要な要素です。書類を斜めにスキャンしてしまうとOCRが文字を正しく認識できないので、できるだけまっすぐ書類をスキャンするようにします。しかし書類の向きを1枚1枚整えるのは意外と骨が折れる作業なので、傾きを自動で補正してくれる機能を搭載したスキャナーを活用すると便利です。加えて、紙が薄く次のページが透けて見えてしまうような書類の場合には、白い紙を重ねてスキャンすることでOCRの認識率が上がります。このひと手間を加えることで、はっきりと文字がスキャンできるようになるためです。



Part4. 精度を上げる工夫をしてOCRを賢く使いこなそう!


OCRは社内のペーパーレス化や業務効率化に貢献してくれる頼もしい技術ですが、文字認識精度が100%ではないため過信は禁物です。しかしOCRの弱点を理解しておけば、それをカバーするためにさまざまな工夫を施すことができます。ポイントをしっかり押さえれば、OCRの精度を向上させ、そのポテンシャルを最大限に活用できるようになるのです。

PDF編集はこれ1本でOK | PDFelement

スマートに、シンプルに、AI 搭載 PDF ソリューション

・ 第19回、24回、29回Vectorプロレジ部門賞受賞

・ 標準版からプロ版まで、幅広いのニーズに対応

・ Windows、Mac、iOS、Android、クラウドに対応

・ 7x12h体制アフターサービス

役に立ちましたか?コメントしましょう!

登録 / ログイン してからコメントを書いてください
user
{{item.name || userName}}
{{item.time}}
{{item.message}}
{{item.likes}} 返信をキャンセルする 返信
登録 / ログイン してからコメントを書いてください
user
{{item1.type == 2 ? authName : item1.name ? item1.name : userName}}
{{item1.time}}
@{{item1.reply_to_type == 2 ? authName : item1.reply_to_name ? item1.reply_to_name : userName}} {{item1.message}}
{{item.likes}} 返信をキャンセルする 返信
登録 / ログイン してからコメントを書いてください

作成日: 2020-10-16 19:53:53 / 更新日: 2023-02-16 10:53:58

星野

編集者

お問い合わせ

この文書または製品に関するご不明/ご意見がありましたら、 サポートセンター よりご連絡ください。ご指摘をお待ちしております!

スマートに、シンプルに、
AI搭載PDFソリューション