본문 바로가기
- Tips/- Tips 일반

Adobe Acrobat pdf에서 OCR 인식 오류

by Vesselor 2020. 5. 27.

"다음으로 인해 이 페이지를 인식(OCR)할 수 없습니다. 이 페이지에 렌더링 가능한 텍스트가 있습니다. "

라는 오류가 발생 하면서 텍스트 인식작업이 불가함. 

 

 

요약하면 해결방법은 2가지.

 

 

1. pdf → 이미지(리사이즈) pdf

 - pdf 파일열고 이미지(jpg or png 등)로 저장하면, 페이지별로 저장됨.

 - 적당한 사진편집 프로그램으로 변환 및 리사이즈 (나의 경우는 Comic4Portable을 사용)

https://hnydiy.tistory.com/71

 

PDF 변환 프로그램 - Comic4Portable

1. 홈페이지 http://gnomewarrior32.blogspot.com/2015/12/comic4portable-v100.html 2. 첨부파일 3. 실행 방법 (1) Java8 설치 http://www.java.com/ (2) 압축 풀고 실행 (3) 알집 사용시

hnydiy.tistory.com

- 원본으로 샤픈만 주는 경우 pdf 인식이 안됨. 최대 해상도 45x45 어쩌고 에러가 뜸. 

- 적당한 해상도(1440x2560)로 샤픈+리사이즈 해주고, pdf로 변환+결합을 하면 인식이 됨. 

- 그러나, 변환하는 과정에서 사진열화가 생겨서 텍스트의 경우 뭉개지는 현상 발생.

 

 

2. pdf → xps 인쇄 → xps에서 다시 pdf로 인쇄

 - pdf 파일열고 xps로 인쇄해서 *.oxps 파일 생성

 - oxps 뷰어 설치후 pdf로 인쇄 

 - 인쇄된 pdf로 OCR 실행 

 - 인쇄-인쇄이므로, 주변부 테두리가 추가되나 pdf 자체 crop기능으로 테두리 여백 제거 가능함.

 - 화질 나쁘지 않음. 

 

 

그러나 두 가지 방법 모두 결국에 텍스트 인식이 불량한 경우가 발생함. 고로 원본 스캔시 애초에 잘 하자!

 

 

 

아래는 수집된 정보들 정리해 둠. 


https://projectresearch.co.kr/2013/04/16/acrobat%EC%97%90%EC%84%9C-%ED%95%9C%EA%B8%80-ocr-%EC%9D%B8%EC%8B%9D%EC%9D%B4-%EC%95%88%EB%90%A0-%EB%95%8C-%ED%95%B4%EA%B2%B0-%EB%B0%A9%EB%B2%95-this-page-contains-renderable-text-%EC%A6%9D%EC%83%81/

 

Acrobat에서 한글 OCR 인식이 안될 때 해결 방법 – This page contains renderable text 증상

DEVONthink , Adobe Acrobat, Evernote OCR 성능 비교 의 글 이후 한 회원 분이 다음과 같은 문제를 문의 주셨습니다.    이주상 선생님 – pdf파일임에도 OCR 기능이 안 먹힙니다. 무슨 이유 일까요? 메시지는

projectresearch.co.kr

 

이 내용을 보고 XPS로 변환하고, XPS를 다시 PDF로 변환하면 OCR 인식이 가능하다는걸 알게됨.  ezPDF WorkBoard 2 for Windows 32Bit, 64Bit 를 설치하면된다고 하나, 이미 단종(?)되고 3.0버전밖에 없으며 XPS 변환을 지원하지 않는것으로 보임. 더군다나 윈도우10에서  XPS 파일로 변환했더니, 확장자가 XPS가 아니라 OXPS로 저장됨. 

 

 

윈도우10에 기본 XPS 파일 뷰어를 설치하면 바로 열 수 있음. 

 

https://extrememanual.net/28157

 

윈도우10 XPS 뷰어 설치 방법 - 익스트림 매뉴얼

윈도우10 레드스톤4 1803 버전을 클린 설치한 경우에는 XPS 뷰어가 설치되어 있지 않아 XPS 파일로 영수증 같은 문서를 관리하는 경우 불편할 수 있는데요. XPS(XML Paper Specification) 포맷 방식은 어도비

extrememanual.net

설치해서 파일을 더블클릭해서 열고, 인쇄를 눌러서 Adobe pdf 또는 한컴 pdf로 인쇄한 결과물을 다시 ocr 인식하면 인식이 잘되나, 치명적인 단점으로 인쇄를 했기 때문에 주변에 여백이 생기지만, 여백은 acrobat 자체의 페이지 crop 기능으로 처리가 가능할 것 같음. 

댓글