手書きの文字や紙媒体に印刷された文字を一瞬でデータ化できないかと考えたことがある人は多いと思います。また、そうした技術があることを知っていても高額な有料サービスの導入が必要だと考えている人もいるのではないでしょうか。本記事では手書きの文字や紙媒体に印刷された文字をデータ化する技術であるOCRとOCRを活用したサービスについて解説します。OCRを導入することで、作業効率を高めることが可能になりますので、ぜひ参考にしてください。
OCRとは
OCR(オーシーアール)とは、Optical Character Recognition/Reader(光学文字認識)の略語です。光学文字認識とは、印刷された文字や手書きの文字画像などの紙文書を、スキャナをはじめとした光学装置で画像として取り込み、あらかじめ登録されたパターンと照合して文字を認識し、文書作成ソフトウェアなどで編集可能な文字データに変換・出力する技術です。
OCRの歴史
OCRの歴史は古く、コンピューターが一般普及するよりもかなり前にさかのぼった1900年代初頭から研究・技術開発が行われてきました。OCR開発の原点になったのは、光電管を使ったスキャナ装置を利用して電信技術の発展と視覚障害者支援のために行われた研究であると考えられています。その後、1928年にオーストラリアで印刷された数字を読み取る技術が開発され、翌年の1929年にアメリカで数字とアルファベットを読み取るOCR技術が開発されます。そして1955年にはOCR技術が商用化され、1960年代後半になると郵便物仕分けなど様々な用途で利用され始めます。
日本国内では1968年に郵便番号制度が導入されたのを期に、郵便番号の読み取り・自動仕分けのために東芝が国産初のOCRを製品化します。その後、日立、日本電気、富士通といった企業も市場に参入し、1970年代には手書きの英数字とカタカナを抽出することができるOCRが開発されるまでに至りました。しかし、日本を含めた漢字文化圏のOCR開発には、数字とアルファベットを合わせて36個+アルファの文字パターン処理数で済む欧米の言語圏とは異なり、文字数や文字の画数も多く困難を伴いました。それも、1980年代に開発された第三世代のOCRエンジンによって高品質な活字の漢字であれば抽出できるようになって、徐々に一般ユーザーにも利用されるレベルになっていきます。そして、幾度となく改良が重ねられる中で、現在は漢字の抽出の精度も高くなり実用レベルなツールが数多く開発・提供されているのです。また、近年はAIを搭載したAI OCRという技術も開発され、文字の読み込み精度がさらに向上しています。
OCRの仕組み
OCRの仕組みについて、OCRではまず読み取りたい文字領域を特定し文字を抽出します。次に抽出した文字を一つずつに切り出し、一文字の範囲を特定します。その次に、特定された一文字の形から特徴を抽出し、辞書の中から近い文字を取り出します。最後に辞書と照合して特徴の認識結果が一番近いものを決定し、PCなどで使えるデジタルのテキストデータとして出力します。
OCRを導入する4つのメリット
OCRが大変便利な機能であることは分かっていても、実際に現場へ導入するためには社内で承認を得なければいけないこともあるでしょう。ここでは、導入準備に役立つOCRを導入する4つのメリットについて詳しく説明します。
1.効率的に紙文書をデータ化できる
OCRを導入する1つ目のメリットは、紙資料や手書きの文書を簡単にデータ化できることです。ペーパーレス化が進んでいる企業であっても、取引先・クライアントなどから受け取った紙資料やパンフレット、顧客から受け取った申し込み用紙など、紙の資料や文書を扱うこともまだ多いのではないでしょうか。
こうした紙文書も、OCRを使えば文書をスキャンするだけで自動的にデジタルデータへの変換が可能になります。文字の読み取りが正確でない箇所が出てくることもありますが、間違っている箇所だけ修正をかければ良いので、時間的コストや人的コストを大幅に削減できるのです。
2.紙文書の保管スペースを縮小できる
OCRを導入する2つ目のメリットは、紙文書の保管スペースを縮小できることです。紙文書の保管スペースというのは、思った以上に社内を占拠しています。オフィスの棚に数多くの紙文書を保存している企業も多いかと思いますが、中には新しい資料や文書を保存するスペースがなくて困っているというケースもあるのではないでしょうか。OCRの導入によって、物理的なスペースが生まれれば、新たな有効活用によって社内を活性化することもできるでしょう。また、コロナ禍が続く中で、オフィスを縮小する企業も増えてきています。OCRの導入によって、こうしたオフィスペースの縮小移転が可能になるかもしれません。
3.検索・編集可能になるので、業務効率が上がる
OCRを導入する3つ目のメリットは、データとして検索・編集可能になるため業務効率を向上できることです。紙の資料や手書きの文書から、過去のデータを探し出すには膨大な時間を要します。それに対し、OCRでデジタル化されたデータは、キーワードによるデータ検索やテキストの編集が可能となり作業効率を大幅にアップさせることができます。また、デジタル化されることで情報共有が容易になるという点も大きなメリットです。加えて、紙でなく画像データとして資料をアーカイブしている場合でもOCRを導入するメリットがあります。画像データに比べてテキストデータのファイルサイズはデータ容量が小さいので、ストレージの空きを増やすことができるからです。
4.過去に作成した紙媒体を資産として有効活用できる
OCRを導入する4つ目のメリットは、過去に作成した紙媒体を資産として有効活用できることです。例えば、社内パンフレットを刷新したいときも、古いパンフレットのデータや文言は流用できるものが多いですよね。しかし、過去に作成されたDTP用のデータはバージョンが古ければ開けません。また、データそのものがないといった状況もしばしばあります。そんなとき、紙に印刷されたパンフレットをOCRで読み込むことができたら、加筆や修正を加も可能になるので非常に便利です。また、過去の紙媒体で発行されていた記事をOCRでテキストデータ化し、Webメディアのコンテンツとして役立てることもできます。専門誌や業界誌といった特化したメディアは、過去の記事は会社の資産としても非常に価値が高いので、積極的にOCRを導入してみましょう。
OCRを行う主な方法
企業がOCRを導入していくには、いくつかの方法があります。主な方法を以下に2つ紹介しますので、目的や用途、会社の規模などによって最適なものを選びましょう。
1.OCR業務を代行している業者に依頼する
紙媒体や手書きの文書が大量に保管されている場合は、OCRを行う作業もそれなりにコストがかかってきます。そんな時に便利なのがOCR業務代行会社です。資金的に余裕があったり、ペーパーレス化で社内システムを大幅に改革していきたいといった場合は、OCR業務代行会社に依頼するのが最も効率的です。
2.OCRソフト・アプリを活用する
OCRのソフトやアプリが既に数多く提供されていますので、それらを利用することで簡単にOCRを導入することが可能です。また、名刺管理アプリを利用している企業やビジネスパーソンも多いと思いますが、こうしたアプリにもOCRの技術が導入されています。OCRの技術を使ったソフト・アプリは、名刺管理以外にも数多く提供されています。後述するGoogleのサービスのように無料で利用できるソフト・アプリもありますので、導入しやすいものから試してみても良いかもしれません。OCRソフト・アプリを上手に活用することで、社内全体の事務的な作業を大幅に削減することが可能になります。
OCRを試してみたい場合はGoogle KeepなどGoogleサービスがおすすめ
Googleが提供するサービスには、OCR機能が標準搭載されたものがあります。GoogleドライブやGoogle KeepといったサービスでOCR機能を簡単に利用することができます。ここでは、Google KeepのOCR機能を使って、画像から文字を抽出してみましょう。
1. Google KeepのOCR使い方 – 新規メモを作成し「画像を追加」のアイコンをクリック
Google Keepを開き、新規メモを作成する欄の下部にあるアイコン群の中から「画像を追加」のアイコンをクリックします。
2. Google KeepのOCR使い方 – OCRを利用したい画像データを選択
「画像を追加」をクリックすると、画像を選択するモーダルウィンドウが開きますので、OCRで文字をデータ化したい画像を選択し、ウィンドウ右下の「開く」ボタンをクリックします。
3. Google KeepのOCR使い方 – その他の項目から「画像のテキストを抽出」を選択
メモを作成するウィンドウ下部にあるアイコン群の一番右側に縦の3点リーダーのアイコンがあります。このアイコンをクリックすると、その他の項目が表示されます。その中から「画像のテキストを抽出する」という項目を選択します。上の画像のように、OCR機能によって画像データのロゴとキャッチコピーがテキストデータ化されてメモ欄に出力されています。
まとめ:進化し続けるOCR機能を活用して、紙文書をデータ化しよう
OCRの利用経験がない人は、無料のOCRソフト・アプリから試してみてはいかがでしょううか。また、本記事を読んでいる人の中には、過去にOCRの利用経験がある人もいるかと思います。もし、それが何年か前の利用であったら、最新のOCRソフト・アプリを試してみてください。ここ数年でOCRの改良はかなり進んでおり、その精度の高さに驚かれることと思います。
記事中で解説しているように、OCRはペーパーレス化によって業務効率をアップさせるだけでなく、過去の資産を活かす、データ入力作業などの人件費についても最小限に抑えるといったことも可能になります。本記事を参考にして、ぜひ導入を検討してみましょう。
仕事やプライベートで紙の書類を電子化したいけれどもわざわざスキャンしたり、あるいは打ち込んだりするのがとっても面倒な時がありますよね。本記事ではGoogleドライブを使って紙書類を簡単に電子化できるTipsをご紹介します。案外簡単に紙の文字[…]