
2026년 2월 3일부터 2월 9일까지 PDF 18개, 총 186장 스캔 문서를 Adobe Acrobat Pro, Google Drive OCR, Tesseract OCR로 직접 인식해 한글 문장, 숫자, 표 구조 오류를 비교한 실무 후기입니다.
OCR은 자동 변환보다 검수가 더 중요했다
2026년 2월, 스캔 문서 186장을 텍스트로 바꿔야 했다
2026년 2월 3일부터 2026년 2월 9일까지 총 7일 동안 스캔 PDF 문서를 OCR로 변환하는 작업을 했다. 테스트한 문서는 PDF 18개였고, 전체 페이지 수는 186장이었다.
문서 종류는 계약서, 견적서, 회의자료, 스캔 영수증이 섞여 있었다. 처음에는 단순히 “PDF 안의 글자를 텍스트로 바꾸면 되는 일”이라고 생각했지만, 실제로 해보니 OCR은 변환보다 검수가 더 중요한 작업이었다.
이번에 사용한 도구는 Adobe Acrobat Pro, Google Drive OCR, Tesseract OCR 세 가지였다. 각각 같은 문서로 테스트했고, 한글 문장 인식률, 숫자 인식 오류, 표 구조 깨짐, 전체 처리 시간을 따로 기록했다.
처음에는 아무 도구나 써도 비슷할 줄 알았다
작업 전에는 솔직히 OCR 도구마다 큰 차이가 없을 줄 알았다. 스캔 품질만 괜찮으면 결과도 비슷하게 나올 것이라고 생각했다.
하지만 첫날 계약서 몇 장을 돌려보자마자 생각이 바뀌었다. 한글 문장은 얼핏 맞아 보였지만, 조사 하나가 빠지거나 띄어쓰기가 이상한 경우가 있었고, 숫자는 더 위험했다.
특히 견적서와 영수증에서는 금액 숫자 하나가 틀리면 문서 전체를 다시 확인해야 했다. OCR 결과를 그대로 믿고 붙여넣기에는 부담이 컸다.
테스트한 문서와 기준
계약서, 견적서, 영수증은 오류 유형이 달랐다
계약서는 문장이 길고 한글 비중이 높았다. 그래서 한글 문장 인식률을 보기 좋았지만, 도장 주변이나 흐릿한 서명란 근처에서는 인식이 흔들렸다.
견적서는 숫자와 표가 핵심이었다. 단가, 수량, 합계 금액이 많아서 OCR 오류가 발생하면 바로 티가 났다.
회의자료는 글자 크기와 줄 간격이 일정해서 비교적 무난했다. 반대로 스캔 영수증은 종이가 휘어 있거나 글자가 흐린 경우가 많아 세 도구 모두 어려워했다.
200dpi와 300dpi에서도 차이가 있었다
전체 186장 중 200dpi로 스캔된 문서는 74장, 300dpi로 스캔된 문서는 112장이었다. 같은 도구를 써도 300dpi 문서에서 결과가 더 안정적으로 나왔다.
200dpi 문서는 작은 숫자와 표 안의 글자가 자주 뭉개졌다. 특히 영수증의 사업자번호, 날짜, 금액 부분은 사람이 다시 확대해서 확인해야 했다.
이번 테스트에서는 단순히 “인식이 됐다”가 아니라, 실제 업무에 그대로 쓸 수 있는지를 기준으로 봤다. 그래서 결과가 좋아 보여도 숫자와 표가 틀리면 낮게 평가했다.
Adobe Acrobat, Google Drive, Tesseract 결과 비교
한글 문장 인식률 비교
한글 문장 인식률은 Adobe Acrobat Pro가 가장 높았다. Adobe는 전체 한글 문장 인식률 94.2%로, 계약서와 회의자료에서 특히 안정적이었다.
Google Drive OCR은 89.6%였다. 짧은 문장이나 선명한 문서는 잘 읽었지만, 줄 간격이 좁거나 표 안에 들어간 한글에서는 누락이 있었다.
Tesseract OCR은 82.1%였다. 설정을 잘 조정하면 좋아질 여지는 있었지만, 기본 작업 기준에서는 후처리 시간이 많이 필요했다.
| OCR 도구 | 한글 문장 인식률 | 강했던 문서 | 아쉬웠던 부분 |
|---|---|---|---|
| Adobe Acrobat Pro | 94.2% | 계약서, 회의자료 | 표 안의 작은 글자는 검수 필요 |
| Google Drive OCR | 89.6% | 선명한 회의자료 | 긴 문장에서 줄바꿈과 띄어쓰기 오류 발생 |
| Tesseract OCR | 82.1% | 단순한 텍스트 문서 | 한글, 표, 낮은 해상도 문서에서 오류 많음 |
숫자 오류는 생각보다 치명적이었다
이번 테스트에서 가장 신경 쓰였던 것은 숫자였다. 한글 문장은 문맥으로 어느 정도 이상함을 찾을 수 있지만, 숫자는 한 자리만 틀려도 완전히 다른 값이 된다.
숫자 인식 오류는 Adobe Acrobat Pro가 11건, Google Drive OCR이 24건, Tesseract OCR이 39건이었다. 특히 8과 3, 0과 6, 1과 7이 헷갈리는 경우가 많았다.
견적서에서는 수량 10이 18처럼 보이거나, 금액의 0이 하나 빠지는 식의 오류가 있었다. 이런 부분은 OCR 결과만 보고는 절대 넘길 수 없었다.
표 인식은 도구별 차이가 가장 컸다
표 구조 깨짐은 도구별 차이가 가장 크게 느껴진 부분이었다. Adobe Acrobat Pro는 표 구조 깨짐이 7건으로 가장 적었고, Google Drive OCR은 19건, Tesseract OCR은 31건이었다.
표가 깨진다는 것은 단순히 보기 불편한 문제가 아니었다. 품목명, 단가, 수량, 합계가 한 줄씩 밀리면 실제 데이터로 쓸 수 없었다.
| OCR 도구 | 숫자 인식 오류 | 표 구조 깨짐 | 전체 처리 시간 | 실무 사용 느낌 |
|---|---|---|---|---|
| Adobe Acrobat Pro | 11건 | 7건 | 28분 | 가장 안정적이고 검수 부담이 적었다 |
| Google Drive OCR | 24건 | 19건 | 41분 | 간단한 문서에는 괜찮지만 표 문서는 불안했다 |
| Tesseract OCR | 39건 | 31건 | 1시간 16분 | 자동화 가능성은 있지만 후처리가 많았다 |
실제 검수 메모
견적서 4번 파일 12페이지에서 합계 금액 1,280,000원이 1,230,000원처럼 인식됨. 표 안의 숫자는 OCR 결과를 그대로 쓰지 말고 원본 PDF 확대 확인 필요.
영수증 파일은 200dpi 문서에서 사업자번호 일부가 흐려짐. 숫자 오류는 자동 수정하지 말고 원본 이미지와 대조하는 방식이 안전함.
가장 위험했던 OCR 오류 사례
금액 숫자 하나가 틀리면 문서 전체를 믿기 어려웠다
가장 위험했던 사례는 견적서 금액 오류였다. 문장 하나가 조금 어색한 정도라면 다시 읽고 고칠 수 있지만, 금액 숫자는 틀린 줄도 모르고 넘어갈 가능성이 있었다.
예를 들어 단가 48,000원이 43,000원처럼 인식된 적이 있었다. 글자 모양이 흐리고 표 선이 겹쳐 있는 페이지였다.
이런 오류를 한 번 발견하고 나니, 이후부터는 모든 견적서의 숫자를 원본과 다시 대조했다. 그래서 사람이 직접 검수한 페이지가 총 53장까지 늘어났다.
표가 깨진 문서는 결국 사람이 다시 봐야 했다
표 인식 오류도 만만치 않았다. OCR 도구가 표를 텍스트로 바꾸면서 열 구분을 제대로 유지하지 못하면, 품목과 금액이 엉뚱하게 붙었다.
특히 스캔 영수증과 견적서에서 이런 문제가 많았다. 가로선이 흐리거나 종이가 살짝 기울어진 페이지에서는 표 구조가 쉽게 무너졌다.
결국 표가 깨진 문서는 사람이 다시 봐야 했다. OCR 후 수정에 걸린 시간은 총 3시간 40분이었고, 이 시간 대부분은 숫자와 표 검수에 쓰였다.
내가 정한 OCR 작업 기준
대량 문서는 자동화하되, 숫자와 표는 반드시 검수한다
이번 테스트 이후 내가 정한 기준은 단순하다. 본문 위주의 대량 문서는 OCR로 빠르게 변환하되, 숫자와 표가 있는 문서는 반드시 사람이 검수한다는 것이다.
특히 계약서의 날짜, 견적서의 금액, 영수증의 사업자번호, 회의자료의 표 안 숫자는 자동 변환 결과를 그대로 믿지 않는다. OCR은 초안을 만들어주는 도구이지, 최종본을 보장하는 도구는 아니었다.
최종 선택 도구는 Adobe Acrobat Pro였다. 한글 문장 인식률, 숫자 오류, 표 구조 유지, 처리 시간을 모두 비교했을 때 가장 안정적이었다.
문서 종류별로 도구를 다르게 선택한다
다만 모든 문서에 무조건 Adobe만 써야 한다고 느낀 것은 아니다. 간단한 회의자료나 급하게 텍스트를 추출해야 하는 문서는 Google Drive OCR도 충분히 쓸 만했다.
Tesseract OCR은 설정과 자동화가 필요한 환경에서는 장점이 있었다. 하지만 이번처럼 실무 문서를 빠르게 검수하고 정리해야 하는 상황에서는 손이 많이 갔다.
| 문서 종류 | 추천 도구 | 이유 | 검수 우선순위 |
|---|---|---|---|
| 계약서 | Adobe Acrobat Pro | 한글 문장 인식률이 높고 문단 유지가 안정적 | 날짜, 이름, 조항 번호 |
| 견적서 | Adobe Acrobat Pro | 숫자 오류와 표 깨짐이 가장 적었음 | 금액, 수량, 합계 |
| 회의자료 | Google Drive OCR | 선명한 문서는 빠르게 텍스트 추출 가능 | 제목, 표 안 텍스트 |
| 스캔 영수증 | Adobe Acrobat Pro 후 수동 검수 | 저해상도와 기울어진 문서에서 오류 가능성 높음 | 금액, 날짜, 사업자번호 |
| 반복 자동화 문서 | Tesseract OCR | 스크립트 작업과 대량 처리에 유리 | 전체 샘플 검수 필요 |
마무리하며, OCR은 편하지만 완성은 아니었다
이번 7일 테스트를 하면서 OCR에 대한 생각이 많이 바뀌었다. 예전에는 OCR을 쓰면 스캔 PDF가 곧바로 편집 가능한 문서가 된다고 생각했다.
하지만 실제로 PDF 18개, 총 186장을 처리해보니 OCR은 완성본을 만들어주는 기능이 아니었다. 사람이 확인해야 할 초안을 빠르게 만들어주는 도구에 가까웠다.
Adobe Acrobat Pro는 전체 처리 시간 28분으로 가장 빨랐고, 한글 문장 인식률도 94.2%로 가장 높았다. 그래서 최종 선택 도구는 Adobe Acrobat Pro로 정했다.
그래도 53장은 사람이 직접 검수해야 했고, OCR 후 수정에는 3시간 40분이 걸렸다. 이 시간이 없었다면 숫자 오류와 표 오류를 놓쳤을 가능성이 컸다.
FAQ
Q1. PDF OCR 정확도는 어떤 도구가 가장 좋았나요?
이번 테스트에서는 Adobe Acrobat Pro가 가장 안정적이었다. 한글 문장 인식률은 94.2%였고, 숫자 오류 11건, 표 구조 깨짐 7건으로 세 도구 중 가장 적었다.
다만 문서 상태가 좋고 단순한 텍스트 중심 문서라면 Google Drive OCR도 충분히 쓸 수 있었다.
Q2. Tesseract OCR은 실무에서 쓰기 어려웠나요?
완전히 어렵다고 보기는 힘들다. Tesseract OCR은 자동화나 반복 처리에는 장점이 있었다.
하지만 이번 테스트에서는 한글 문장 인식률이 82.1%였고, 숫자 오류 39건, 표 구조 깨짐 31건이 발생했다. 설정과 후처리에 익숙하지 않다면 검수 시간이 많이 필요했다.
Q3. OCR 작업에서 가장 조심해야 할 부분은 무엇인가요?
숫자와 표다. 한글 문장은 문맥으로 오류를 찾기 쉽지만, 금액이나 사업자번호는 한 자리만 틀려도 큰 문제가 될 수 있다.
특히 견적서, 영수증, 계약서 날짜처럼 업무 판단에 직접 영향을 주는 값은 반드시 원본 PDF와 대조해야 한다.
내가 다시 OCR 작업을 한다면
다시 같은 작업을 한다면 처음부터 문서 종류를 나눠서 처리할 것이다. 계약서와 견적서는 Adobe Acrobat Pro로 먼저 돌리고, 회의자료처럼 비교적 단순한 문서는 Google Drive OCR을 보조로 사용할 것 같다.
그리고 200dpi 문서는 OCR 전에 가능한 한 다시 스캔을 요청할 것이다. 이번 테스트에서 200dpi 74장은 작은 숫자와 표 안 글자에서 불안정한 결과가 많았다.
무엇보다 OCR 결과를 최종본으로 생각하지 않을 것이다. 자동 변환은 시작이고, 숫자와 표 검수가 끝나야 비로소 업무에 쓸 수 있는 문서가 된다는 것을 이번에 확실히 배웠다.