You are currently viewing 이미지를 텍스트로, pdf를 텍스트로 변환
이미지-텍스트-변환-OCR

이미지를 텍스트로, pdf를 텍스트로 변환

이미지를 또는 pdf를 텍스트로 변환 해야 되는 상황, 여러분도 이런 작업이 필요한 경우 겪어 보셨을 거에요. 이미지에 있는 텍스트를 타이핑 하기엔 시간이 너무 많이 걸리고 바로 텍스트로 변환되면 복사해서 이용할수 있을테니 편리하잖아요. 또는 pdf파일이 스캔본이라서 텍스트를 복사할수 없는 경우에도 마찬가지죠. 이런 경우 어떻게 해야 할까요? OCR 이라고 들어 보셨나요? Optical Character Recognition 의 약자로 광학 문자 인식 이라는 뜻 이에요. 바로 지금 우리들이 이런 작업을 할때 필요한 기술이죠. 그래서 OCR 프로그램 을 검색하시면 바로 원하는 답을 찾을 수 있으실 거에요. 저 용어를 몰라도 이제 아셨으니 다음에 또 필요 하시다면 OCR 이라는 용어로 검색을 해보세요. 그리고 이번 포스팅에 설명 드리니 어쩌면 다시 검색 하실 필요가 없을지도 모르겠죠?

저번에는 pdf를 word로 변환하는 방법: https://lsrank.com/useful-tip/convert-pdf-to-word/

그리고 무료로 사용할수 있는 사이트에서도 요즘은 퀄리티 높게 인식하고 텍스트로 변환을 해줍니다. 가장 익숙한 구글을 먼저 사용해 볼게요.

OCR 변환 방법

목차

구글 드라이브에서 하는 방법

구글 드라이브: https://drive.google.com/drive/my-drive

구글-드라이브-문서변환
구글-드라이브-문서변환

구글 드라이브에 가셔서 텍스트로 바꿀 이미지나 pdf파일을 끌어다 놓습니다. 그럼 위의 사진처럼 파일이 업로드 될거에요.

구글-드라이브-문서변환1

해당 파일에서 우클릭 -> 연결 앱 -> Google 문서를 눌러보세요.

구글-드라이브-문서변환-결과
구글-드라이브-문서변환-결과

구글 드라이브의 최고 장점은 이렇게 버튼 하나만 눌렀을 뿐인데 원본 사진 밑에 이미지에서 추출한 글자를 바로 써준다는 것 입니다.

구글-드라이브-변환-결과-비교
구글-드라이브-변환-결과-비교

차이를 보시기 쉽게 비교해 보았습니다. 이미지에 있는 텍스트가 비교적 진하긴 하지만 번짐도 많았고 희미한 부분도 있었지만 거의 완벽하게 텍스트로 변환이 되었습니다. 딱 하나 다른 점은 오른쪽의 텍스트로 변환된 이미지 중에 빨간 줄 쳐진 MCRIE부분인데요. 작은 따옴표가 하나가 반영이 안되었네요. 그것을 제외하면 거의 완벽하다고 볼 수 있습니다. 상태가 아주 안좋은 이미지의 경우에는 더 차이가 생길순 있을 것 같아요. 그래도 변환속도도 빠른 것에 비하면 아주 고퀄리티 변환이라고 생각됩니다.

PDF24 Tools

PDF24 Tools: https://tools.pdf24.org/ko/ocr-pdf

PDF24 Tools
PDF24 Tools

파일을 끌어다 오른쪽으로 옮겨줍니다.

PDF24-Tools-업로드
PDF24-Tools-업로드

업로드가 끝나면 하단의 OCR 시작을 눌러주세요.

변환이 끝나면 원본과 이름은 같은 pdf파일로 다운로드 받을 수 있어요.

이렇게 다운로드 받은 pdf파일은 겉 모습은 이미지 파일과 같아요.

PDF24-Tools-변환-결과
PDF24-Tools-변환-결과

열어보면 이미지 파일이 그대로 들어 있어서 이거 뭐야 제대로 안된거 아니야 이렇게 생각하실수 있지만 텍스트를 선택할수가 있습니다.

PDF24-Tools-변환-결과-비교
PDF24-Tools-변환-결과-비교

왼쪽 사진은 pdf파일에서 텍스트를 복사해서 붙여넣은 파일이고 오른쪽은 pdf로 변환된 파일 입니다. 원본과 비교하면 달라진 부분이 있었습니다. 우선 첫번째 부터 This인데 Tus로 되어 있고 일부 띄어쓰기와 잘못 변환된 부분이 있었습니다. should have를 should Ihave로 변환을 해놓았네요. 조금 아쉽습니다.

변환시간과 변환된 결과물을 비교해보면 구글의 승리입니다.

PDF24-Tools-더 많은 기능
PDF24-Tools-더 많은 기능

OCR결과는 그렇지만 이 사이트의 하단부분에 “더 많은 기능”을 누르시면 다양한 기능들이 있음을 확인 할수 있습니다. PDF 용량 줄이기 PDF 파일 분할 파일 비교 등등 유용하게 활용할 기능이 많으니 도움이 될 만한 사이트라고 생각됩니다.

onlineocr

onlineocr : https://www.onlineocr.net/ko/

onlineocr
onlineocr

이 사이트도 파일 선택하고 옆에 언어랑 바꿀 파일 형식만 선택하면 간편하고 빠르게 변환을 해줍니다. 그런데 이 사이트도 변환된 결과가 원본 파일과 다른 부분들이 있습니다. 그냥 일부를 빼버린 경우도 있어서 빨간박스로 표시해 봤어요.

pdfcandy

pdfcandy: https://pdfcandy.com/

변환속도는 거의 구글 변환급으로 빠르게 변환 됩니다. 결과물은 PDF24 Tools 와 거의 비슷했습니다.

파인리더

여기가 문자 인식률이 엄청 좋다고 하는데 유료라서 아직 써보지 못했습니다. 조만간 써보고 글을 추가하도록 하겠습니다.

마무리

이미지를 텍스트로 변환하는 여러 방법을 사용해 보았는데 현재 사용하지 않은 것을 제외하고는 구글의 OCR 인식률이 가장 좋았습니다.

This Post Has One Comment

  1. 익명

    딱 필요한 유용한 정보를 알기 쉽게 정리해 주셔서 감사합니다~

답글 남기기