スキャナで読み取った画像内の数字がランダムに置き換わる問題
2013年8月7日 08:00
guicho2.71828 曰く、 スキャナで文書を取り込むと、たとえOCRがオフでも、場合によってはランダムに数値が書き換わってしまうという問題が報告されている(Xerox scanners/photocopiers randomly alter numbers in scanned documents)。
この問題が報告されているのは、「Xerox WorkCentre 7535」などの機種。考察によると、画像圧縮に使われているJBIG2アルゴリズムに関係が有りそうだという。JBIG2はパターンマッチングを利用して圧縮効率を向上させているのだが、パターンマッチングに利用される領域サイズが画像中の文字サイズと同じぐらいの大きさになると、誤認識が発生して別の数字に「張り替え」てしまうらしい。
先の記事中では、「6」が「8」になったり、「14.13」が「17.42」になったりといった例が確認できる。対策としては高解像度にすること、あるいはTIFF形式で保存することが挙げられている。
スラッシュドットのコメントを読む | ITセクション | テクノロジー | ソフトウェア
関連ストーリー:
「OCRなどでの認識が難しいフォント」が公開される 2013年06月26日
Sony、メディアのロード時間を比較することで海賊版を検出する特許を取得 2013年02月26日