OCRとは、手書きや印刷された文字をイメージスキャナーやデジタルカメラ、あるいはスマートフォンなどによって読み込み、コンピューターが利用できるpdfなどの形式に変換できる技術のことを指します。
通常書類などを画像に取り込んだ際には、読みたい部分を探すのに手間がかかりますが、OCR技術を利用しまとめることによって手軽にパソコン上などで書類を探し出したりすることができるようになります。
OCRのできることについて
手書きや古い書類などをパソコン上などでまとめるデジタル変換技術のOCRは、認識能力の高さで評価されているのが特徴です。パソコンなどで打ち込んだコンピューター形式の文字のみならず手書き書類などにも対応し、あらゆる環境下で記載された文字をデータ化できる一方で、100パーセント文字を認識することは現時点では難しいとされています。例えば、かすれてしまって読み手からも判断がつきにくい文字や、原稿が斜めになっていたり、平方メートルなどの特殊文字などは読み取れないか誤字認識される可能性が高いと考えて良いでしょう。
スキャンしたPDFも可能
OCRの優れた機能として、スキャナーで読み込んだPDF形式のドキュメントをPDF内で全文検索が可能なファイルに変換することができるというものがあります。こうすることによって、大量の資料の中からひとつひとつ探していく作業工程を無くすことができ、探したいファイル名や文字などを検索にかけてパソコン上で簡単に必要な書類を探し出せる便利な機能です。また、読み取った文字は、入力した文字と同様にテキストとしてコピーや貼り付けが可能で、文字の編集作業が簡単に行えるようになっています。
スキャンするときの注意点
文字をデータ化するにあたっては、対象の書類をスキャナーなどでスキャンすることになりますが、いくつかの注意点があります。
スキャナーには読み取り解像度を選択できる機能を基本的に備えていますが、その解像度を200から300dpiという高い解像度でスキャンしましょう。そうすることによって文字認識精度を向上させることができます。
また、対象の文字などがカラーであったとしてもスキャン時には白黒を選択するようにしましょう。現時点では、カラーは誤字認識の対象となってしまう可能性があります。
精度の高いocr結果とするには
できるだけ誤字認識や読み取り不可などの問題を避け、精度の高い結果とするには、解像度や白黒の他にも方法があります。
ひとつはコントラストを強調するという点で、対象の文字などが多少かすれている場合はスキャン後にイラスト編集ソフトを用いてコントラストを変更することによって精度の高い結果を得られる可能性が高まります。
文字の傾き具合も重要な点で、特に手書きの場合はできるだけ整列されている角度でスキャンをするようにしましょう。また、新聞などのように裏に記載されている文字が薄く浮かび上がる紙などは下にファイルを入れるなど工夫をすれば精度は改善されます。
精度の高いOCR機能のソフト
OCR機能のソフトは多く出回っていますが、読み取り機能の精度や特徴などがそれぞれ異なってきます。
たとえばScanSnapのように、スキャン機能の他に添付されているCardMinderソフトで簡単にスキャンと変換が行えるソフトが多く出回っているのが特徴です。名刺などもCardMinderなどのソフトを用いることによって簡単に管理、編集、変換をすることが可能で、そのままPDFファイル上にある名刺のメールアドレスその他の連絡先に連絡を入れることもできるといったように、高精度かつ作業をより効率化できるソフトがあります。
OCRはスキャンした画像のなかにある文字を認識しデータ化する便利な機能です。一般的なワードやエクセルで使いたい印刷物があるといったような状況にも対応しており、認識された文字は編集や変換作業が可能となります。
一方でOCR技術を利用しているソフトも豊富にあるため、ユーザーの条件に合ったものを選択するべきでしょう。
役に立ちましたか?コメントしましょう!