"다음으로 인해 이 페이지를 인식(OCR)할 수 없습니다. 이 페이지에 렌더링 가능한 텍스트가 있습니다. "
라는 오류가 발생 하면서 텍스트 인식작업이 불가함.
요약하면 해결방법은 2가지.
1. pdf → 이미지(리사이즈) → pdf
- pdf 파일열고 이미지(jpg or png 등)로 저장하면, 페이지별로 저장됨.
- 적당한 사진편집 프로그램으로 변환 및 리사이즈 (나의 경우는 Comic4Portable을 사용)
- 원본으로 샤픈만 주는 경우 pdf 인식이 안됨. 최대 해상도 45x45 어쩌고 에러가 뜸.
- 적당한 해상도(1440x2560)로 샤픈+리사이즈 해주고, pdf로 변환+결합을 하면 인식이 됨.
- 그러나, 변환하는 과정에서 사진열화가 생겨서 텍스트의 경우 뭉개지는 현상 발생.
2. pdf → xps 인쇄 → xps에서 다시 pdf로 인쇄
- pdf 파일열고 xps로 인쇄해서 *.oxps 파일 생성
- oxps 뷰어 설치후 pdf로 인쇄
- 인쇄된 pdf로 OCR 실행
- 인쇄-인쇄이므로, 주변부 테두리가 추가되나 pdf 자체 crop기능으로 테두리 여백 제거 가능함.
- 화질 나쁘지 않음.
그러나 두 가지 방법 모두 결국에 텍스트 인식이 불량한 경우가 발생함. 고로 원본 스캔시 애초에 잘 하자!
아래는 수집된 정보들 정리해 둠.
이 내용을 보고 XPS로 변환하고, XPS를 다시 PDF로 변환하면 OCR 인식이 가능하다는걸 알게됨. ezPDF WorkBoard 2 for Windows 32Bit, 64Bit 를 설치하면된다고 하나, 이미 단종(?)되고 3.0버전밖에 없으며 XPS 변환을 지원하지 않는것으로 보임. 더군다나 윈도우10에서 XPS 파일로 변환했더니, 확장자가 XPS가 아니라 OXPS로 저장됨.
윈도우10에 기본 XPS 파일 뷰어를 설치하면 바로 열 수 있음.
https://extrememanual.net/28157
설치해서 파일을 더블클릭해서 열고, 인쇄를 눌러서 Adobe pdf 또는 한컴 pdf로 인쇄한 결과물을 다시 ocr 인식하면 인식이 잘되나, 치명적인 단점으로 인쇄를 했기 때문에 주변에 여백이 생기지만, 여백은 acrobat 자체의 페이지 crop 기능으로 처리가 가능할 것 같음.
'- Tips > - Tips 일반' 카테고리의 다른 글
멤브레인 키보드 소음 줄이는 팁(?) (0) | 2020.06.04 |
---|---|
여러개 hwp 파일 pdf로 변환 또는 인쇄 (1) | 2020.06.02 |
Nvidia 그래픽 카드 드라이버 다운로드 느릴때 해결방법 (0) | 2020.05.18 |
윈도우 10 폴더 보기 설정이 안될때 (0) | 2020.05.16 |
네이버 까페 중고나라 업자 안보기 (크롬) (0) | 2020.05.13 |
댓글