Home > PDF-OCR > OCRの精度を上げるコツ

OCRの精度を上げるコツ、専門ソフトもご紹介!

はじめに


画像からテキストを読み込むことができる機能は「OCR」といいます。今まで画像を見ながら、文字をひとつひとつwordなどに写していた人は、写真をとるだけで自動で内容をテキスト化してくれるOCRを使えば、何倍も効率アップです!今回は、そんなOCR機能で使えるテクニック、さらにOCR専門ソフトPDFelement(PDFエレメント)までご紹介しちゃいます。

目次:


1.OCRの精度って?OCRの認識率を上げて修正を減らすテクニック5つ


昨今、OCRの精度は大変進歩しており、AI導入により、認識できるテキストの種類も様々になってきました。例えば、画像に書かれた手書きの文字も、最近は読み取ることが可能です。


とはいっても、一言一句違わずテキストをスキャンできているか、まだまだ不安ですし、実際OCRを利用してみて、「あれ?うまく読み込めてないな…」なんて経験をした方もいるはず。実は、OCRの基本である文字認識の精度を向上させるには、いくつかポイントがあるんです。


① 画像の鮮明度を上げる


言わずもがなですが、不鮮明な画像だと、テキストの認識率は低下してしまいます。なるべく高い解像度でスキャンしましょう。また、読み取る原稿用紙が薄いと、裏映りする可能性をもありますので、白紙を重ねてスキャンするなどの工夫をしてみてください。


② カラー文字や網掛け文字に対応する


カラーの文字や、網掛けされているテキストは、OCRで読み取りづらいとされています。データを白黒で印刷したり、網掛け文字にも対応できる高性能なスキャナーを用意する必要があります。

③ 読み込む原稿の傾きに注意する


OCRは、傾いている文字には反応しづらく、「文字が一定方向にまっすぐ揃っている」文書だと、高精度な認識が可能です。原稿の置き方にも注意して、文字が斜めにならないよう、読み込む際は、向きに合わせてまっすぐに原稿を置きましょう。

1枚ずつ手で調整しながらスキャンすることでも対応できますが、読み込む量が多い場合は時間も手間もかかってしまうので、傾き補正をしてくれる機能がついたスキャナーを利用するのもひとつの手です。


まとめて原稿や書類をスキャンしても、自動で文字の傾きを補正してくれます。


④ 縦書きか横書きに統一する


原稿を斜めにすると読み込みづらいのと同じ理由で、縦書きと横書きが混在する文書だと、行の切り出しができないので、どちらかに統一すると、認識率が向上します。


⑤ 文字の間隔を広げる


文字の間隔が狭いと、文字を正確に切り出すことが難しくなるため、認識率が下がってしまいます。読み込む原稿やドキュメントは、縮小せず、文字間隔を広げるよう工夫してみましょう。


そのほか、OCRに注意すべきことは、ぜひ下記の記事からチェックしてください。

関連記事:OCR(文字認識)するときの注意点!>>


2.Windows 10の標準機能だけで画像からテキストを抽出する方法


画像を自動でテキスト化する際には、OCR機能を備えているソフトウェアを利用することが多いですが、実はWindows10の標準機能だけでテキスト抽出を行うこともできるんです。ただ、残念ながらこちらは日本語には対応しておらず、英語のドキュメントしか読み込めません。


標準機能といっても、Windowsのスタートメニューから、OCRアプリケーションを検索しても、そのようなアプリはでてきません。ここで紹介するのは、Windowsの「切り取り&スケッチ」アプリを使用する方法です。ではさっそくやり方を確認していきましょう。


  ① 対象の画像ファイルや、一時停止した動画などをPC上で開く

  ② タスクバーの虫眼鏡アイコンで検索ユーティリティを起動し、右下にある「スクリーンショットを使用して検索」をクリック

  ③ 上部のツールバーで撮影範囲指定方法を選択

  ④ 読み込みたいテキストにかぶるように、抽出範囲を選択

  ⑤ コピー可能なテキストが表示される


この方法は、Edgeを経由して、キャプチャした画像がBingの画像検索にかけられる機能を利用したものです。テキストのない画像では、類似する画像の検索が行われ、関連画像が表示されますが、テキストが認識できる場合は、自動的にOCRが行われ、コピー可能なテキストに早変わりします!日本語には対応していないのがネックですが、気軽にテキスト化が可能ですね。


3.専門ソフトのOCR機能で、指定した一部分だけをテキスト化


Windows10の機能を利用した方法だと、OCRツールをインストールする必要はありませんが、やはり日本語ドキュメントを読み込みたい場合や、その他付随する機能などを考えると、専門ソフトのOCR機能を利用すると便利です。指定した一部分だけをテキスト化できる、高性能で人気のソフトをご紹介します。


① PDFelement


「PDFelement」(PDFエレメント)は、オールインワンのPDF万能ソフトで、直感的に操作できるインターフェースとなっていますので、初心者でもすぐに使えます。「ツール」→「OCR処理」の順に従い、スキャンしたい部分が識別されます。OCRのほかにも、PDF変換、作成、編集、注釈、フォーム、保護など、さまざまな機能を備えています。


PDF OCR

PDFelementは無料の試用版と、有料の標準とプロ版を用意していて、OCR機能は、プロ版でのみ利用可能ですが、学生向けの優待価格での販売もされています。


PDFをOCRするときの言語設定について、ぜひ下記の記事から読んでください。

関連記事:PDFelement ProのOCR機能を利用する時の文書言語設定>>

② 読取革命


「読取革命」は、ソースネクスト株式会社が、パナソニックソリューションテクノロジー株式会社と共同開発したソフトです。大手企業が開発元ですので、安心してインストールすることができますね。読取革命の搭載するエンジンの精度には定評があり、法人を中心に、多くのユーザーから人気です。


FAXやコピーした文書、手書き文字など、読み取りづらいとされている文字や、縦書きと横書き、画像、表などが混在した原稿でも、レイアウトを保って再現できます。


日本語・英語両方の文書の読み取りにも対応しているので、幅広いシーンで活躍しそうです。


③ GT Text


「GT Text」は、画像の指定範囲内にある文字をテキスト化し、クリップボードへコピーできるOCRソフトです。BMP、JPEG、PNG、GIF、TIFFなど、多様なファイル形式をサポートしています。日本語の言語ファイルを追加することで、日本語ドキュメントにも対応し、縦書き・横書きも自動で判別してテキスト化が可能です。


まとめ


いかがでしたでしょうか?画像から自動でテキスト化してくれるOCR機能は、様々なビジネスシーンで利用できますので、ぜひ本記事を参考にして、自分の用途にあったツールを見つけてみてくださいね。


PDF編集に関するほかの機能紹介について、ぜひ下記の記事から読んでください。

関連記事:無料でのPDFファイル編集方法こちらにも! >>
関連記事:PDF注釈のプロパティ・情報を編集する方法 >>

PDF編集はこれ1本でOK | PDFelement

スマートに、シンプルに、AI 搭載 PDF ソリューション

・ 第19回、24回、29回Vectorプロレジ部門賞受賞

・ 標準版からプロ版まで、幅広いのニーズに対応

・ Windows、Mac、iOS、Android、クラウドに対応

・ 7x12h体制アフターサービス

役に立ちましたか?コメントしましょう!

登録 / ログイン してからコメントを書いてください
user
{{item.name || userName}}
{{item.time}}
{{item.message}}
{{item.likes}} 返信をキャンセルする 返信
登録 / ログイン してからコメントを書いてください
user
{{item1.type == 2 ? authName : item1.name ? item1.name : userName}}
{{item1.time}}
@{{item1.reply_to_type == 2 ? authName : item1.reply_to_name ? item1.reply_to_name : userName}} {{item1.message}}
{{item.likes}} 返信をキャンセルする 返信
登録 / ログイン してからコメントを書いてください

作成日: 2021-08-27 16:39:01 / 更新日: 2024-06-15 10:59:03

avatar

PDFエレメント

編集者

お問い合わせ

この文書または製品に関するご不明/ご意見がありましたら、 サポートセンター よりご連絡ください。ご指摘をお待ちしております!

スマートに、シンプルに、
AI 搭載 PDF ソリューション