OCR

OCRとは、「Optical Character Recognition/光学文字認識」または「Optical Character Reader/光学式文字読取装置」のことです。紙に書かれた、もしくは印刷された文字を読み取り、文字の形状を判別してデジタルテキストデータに変換する技術、またはそのための装置のことを指します。

電子書籍制作においては、底本制作時の電子データが残っておらず現物の書籍しか存在しない場合に、書籍をOCRで読み取ってデジタルテキストに変換し、それを基に電子書籍データを制作するケースがあります。

文字認識の精度は向上していますが、必ずしも100%正確とはいえず、誤認識が発生する場合も多いです。電子書籍データ制作後には確認作業が必要となります。

一覧へ戻る