結論としては一旦2値画像のTIFFを作成して,Acrobat で PDF に変換,その後 Acrobat で OCR して保存する,ということ.
レシートとかをスキャナで取り込む環境がなくて,やむなくスマートフォンで撮影したりした場合,あとできれいな PDF にしたくなる(そんなこともない?).
- まず撮影した画像を GIMP 等で明るさ・コントラスト調整や,不要な箇所を取り除いたりする.最終的に2値(白黒; グレイスケールではなく)にしたいので,色モードをインデックスカラー2値にして,PNGとかで保存.
- このPNGをAcrobatでPDFにして,OCRをかけた場合,なぜか画像部分がグレイスケールになってしまう(JPEGのようなノイズが文字の周りに現れる).本当になぜかわからない.
- なので,PNG を TIFF に変換して,AcrobatでPDFにする.この状態で Acrobat の OCRをかけた場合,2値画像まま維持される.