PDF·문서 스캔 데이터 정리 후기: OCR 오류 126건을 줄인 파일명·압축·검색 설정 기록

PDF·문서 스캔 데이터 정리

처음 종이 문서를 PDF로 스캔할 때는 “일단 많이 저장해두면 나중에 찾을 수 있겠지”라고 생각했습니다. 영수증, 계약서, 세금 자료, 회의 메모, 각종 신청서까지 전부 PDF로 만들어두면 책상도 깔끔해지고 검색도 쉬워질 것 같았습니다. 그런데 실제로 해보니 문제는 저장이 아니라 나중에 필요한 파일을 정확히 찾는 것이었습니다.

저는 2026년 1월부터 4주간 종이 문서와 기존 PDF 파일을 정리했습니다. 이 기간 동안 스캔한 문서 수는 386장이었고, 최종적으로 생성한 PDF 파일 수는 112개였습니다. 전체 PDF 용량은 4.8GB까지 늘었습니다. 처음에는 뿌듯했지만, OCR 인식 오류와 파일명 중복 문제가 생기면서 다시 정리하는 데 꽤 많은 시간을 썼습니다.

처음에는 해상도와 파일명을 대충 정했다

초반에는 문서를 빨리 스캔하는 데만 집중했습니다. 일반 문서, 영수증, 작은 글씨가 많은 계약서까지 거의 같은 설정으로 저장했습니다. 해상도도 상황에 따라 200dpi, 300dpi, 600dpi를 섞어 썼습니다. 문제는 나중에 OCR을 돌렸을 때 생겼습니다.

200dpi로 스캔한 일부 영수증은 글자가 흐릿했고, 작은 숫자나 사업자등록번호가 제대로 인식되지 않았습니다. 반대로 모든 문서를 600dpi로 저장하니 파일 용량이 너무 커졌습니다. 압축 전 평균 파일 크기는 42MB였고, 여러 개를 한 번에 열거나 백업할 때 부담이 됐습니다.

결국 해상도 기준을 다시 만들었습니다. 일반 문서는 300dpi, 작은 글씨가 많거나 영수증처럼 숫자 확인이 중요한 문서는 600dpi로 스캔했습니다. 이 기준을 적용한 뒤에는 품질과 용량 사이에서 어느 정도 균형이 잡혔습니다.

OCR 오류 126건을 겪고 나서야 샘플 확인을 시작했다

전체 파일 중 OCR 처리한 파일 수는 96개였습니다. 처음에는 OCR을 한 번 돌리면 끝이라고 생각했습니다. 하지만 검색을 해보니 숫자, 날짜, 이름이 잘못 인식된 경우가 많았습니다. 초기 OCR 인식 오류 건수는 126건이었습니다.

특히 영수증 스캔에서 문제가 컸습니다. 숫자 8과 3이 잘못 인식되어 금액 검색이 실패한 경험이 있었습니다. 예를 들어 38,000원을 검색해야 하는데 OCR 결과가 88,000원처럼 읽히거나, 83이 88로 인식되는 식이었습니다. 처음에는 제가 검색어를 잘못 입력한 줄 알았지만, 원본 PDF를 확대해보니 OCR 자체가 틀린 것이었습니다.

이후에는 OCR 후 모든 파일을 전부 읽어보지는 않더라도, 중요한 항목은 샘플 확인을 했습니다. 날짜, 금액, 이름, 사업자번호, 계약번호처럼 나중에 검색할 가능성이 높은 단어를 중심으로 확인했습니다. 그 결과 개선 후 OCR 인식 오류 건수는 37건으로 줄었습니다. 완벽하진 않았지만 초기 126건에 비하면 훨씬 관리 가능한 수준이었습니다.

OCR 오류로 다시 처리한 파일은 23개였다

OCR 처리 후 문제가 심했던 파일은 다시 처리했습니다. OCR 오류로 다시 처리한 파일 수는 23개였습니다. 대부분은 스캔 품질이 낮거나, 문서가 비스듬하게 들어갔거나, 글자가 너무 작았던 파일이었습니다.

다시 처리할 때는 세 가지를 바꿨습니다. 첫째, 원본을 다시 스캔할 수 있으면 600dpi로 재스캔했습니다. 둘째, 문서가 기울어진 경우 자동 보정 기능을 적용했습니다. 셋째, OCR 처리 후 바로 검색 테스트를 했습니다.

예전에는 OCR 처리만 끝나면 파일을 보관 폴더로 옮겼습니다. 지금은 OCR 후 바로 “날짜”, “금액”, “이름” 같은 핵심 단어로 검색합니다. 이 과정을 넣으니 나중에 파일을 못 찾는 일이 줄었습니다.

PDF 정리 기준표

문서 유형권장 해상도파일명 규칙OCR 확인 여부보관 위치주의할 점
일반 문서300dpi2026-01-문서종류_제목.pdf제목과 날짜 검색 확인원본 폴더와 압축본 폴더 분리해상도를 너무 높이면 용량만 커질 수 있음
영수증600dpi2026-01-영수증_상호_금액.pdf금액과 날짜 반드시 확인세금자료 원본 폴더숫자 8과 3, 0과 6 인식 오류 주의
계약서300dpi 또는 600dpi2026-01-계약서_거래처명_v1.pdf거래처명, 계약일, 금액 확인중요문서 원본 폴더압축본만 남기지 말고 원본 보관 필요
세금 자료600dpi2026-01-세금자료_항목명.pdf사업자번호와 금액 확인원본 백업 폴더OCR 오류가 생기면 검색 누락 가능성이 큼
회의 메모300dpi2026-01-회의메모_프로젝트명.pdf프로젝트명 검색 확인프로젝트별 폴더손글씨는 OCR 정확도가 낮을 수 있음

파일명을 날짜 없이 저장했다가 PDF 18개가 섞였다

가장 불편했던 실패 사례는 파일명을 날짜 없이 저장한 일이었습니다. 처음에는 “영수증.pdf”, “계약서.pdf”, “세금자료.pdf”처럼 간단하게 저장했습니다. 그런데 비슷한 제목의 PDF가 계속 쌓이면서 같은 제목의 PDF 18개가 섞였습니다.

파일 탐색기에서 보면 모두 비슷한 이름이라 열어보기 전까지 구분이 어려웠습니다. OCR 검색을 해도 날짜가 파일명에 없으니 검색 결과에서 우선순위를 판단하기 힘들었습니다. 결국 파일명 앞에 날짜를 넣는 방식으로 바꿨습니다.

2026-01-영수증_문구점_38000원.pdf
2026-01-계약서_거래처A_v1.pdf
2026-01-세금자료_카드매출.pdf
2026-01-회의메모_프로젝트정리.pdf

파일명에 날짜, 문서 유형, 핵심 키워드를 넣으니 검색 시간이 크게 줄었습니다. 정리 전에는 필요한 PDF 하나를 찾는 데 평균 3분 10초가 걸렸지만, 개선 후에는 평균 52초로 줄었습니다.

압축 전 42MB에서 압축 후 18MB로 줄였다

스캔 품질을 높이면 파일 용량이 커집니다. 특히 600dpi로 스캔한 파일은 용량이 빠르게 늘었습니다. 처음에는 원본 품질을 유지하려고 압축을 거의 하지 않았는데, 전체 PDF 용량이 4.8GB까지 커지면서 백업과 동기화가 부담스러워졌습니다.

압축 전 평균 파일 크기는 42MB였습니다. 압축 설정을 조정한 뒤 평균 파일 크기는 18MB로 줄었습니다. 다만 모든 파일을 무조건 압축하지는 않았습니다. 계약서, 세금 자료, 금액 확인이 중요한 영수증은 원본을 따로 보관하고, 검색용 또는 공유용 파일만 압축했습니다.

이때 만든 기준은 단순했습니다. 원본 폴더와 압축본 폴더를 분리했습니다. 원본은 화질 유지, 압축본은 검색과 공유 목적이었습니다. 이렇게 나누니 파일을 줄이면서도 중요한 문서의 품질은 유지할 수 있었습니다.

원본 폴더와 압축본 폴더를 분리한 이유

처음에는 압축한 파일만 남기려고 했습니다. 그런데 OCR 오류가 발생하거나 숫자 확인이 필요한 경우 원본이 필요했습니다. 특히 영수증처럼 작은 글씨가 많은 문서는 압축 후 숫자가 뭉개져 보일 때가 있었습니다.

그래서 폴더를 다음처럼 나눴습니다.

01_original_scan
02_ocr_done
03_compressed
04_error_retry
05_archive

원본은 01_original_scan에 보관하고, OCR 처리한 파일은 02_ocr_done으로 옮겼습니다. 압축한 파일은 03_compressed에 따로 저장했습니다. 문제가 있는 파일은 04_error_retry에 넣어 다시 확인했습니다. 최종 정리된 파일만 05_archive로 옮겼습니다.

이 구조를 만들고 나니 어떤 파일이 원본이고 어떤 파일이 압축본인지 헷갈리지 않았습니다. 백업 안정성도 좋아졌습니다.

검색 가능성이 정리의 핵심이었다

스캔 작업을 하면서 가장 크게 느낀 점은 PDF 정리의 목적이 저장이 아니라 검색이라는 점이었습니다. 파일이 아무리 많아도 나중에 찾을 수 없으면 의미가 없었습니다. 특히 세금 자료나 영수증은 금액, 날짜, 상호명으로 검색해야 하는 경우가 많았습니다.

처음에는 파일을 많이 저장했다는 것에 만족했습니다. 하지만 실제로 필요한 문서를 찾으려 할 때 평균 3분 10초가 걸리자 구조가 잘못됐다는 것을 알았습니다. 파일명 규칙, OCR 샘플 확인, 폴더 분리, 압축 기준을 적용한 뒤 검색 시간은 평균 52초로 줄었습니다.

비교 기준별 실제 체감

스캔 품질

일반 문서는 300dpi로 충분한 경우가 많았습니다. 하지만 작은 글씨가 있는 영수증이나 세금 자료는 600dpi가 더 안정적이었습니다. 200dpi는 파일은 가볍지만 OCR 정확도가 떨어지는 경우가 있었습니다.

OCR 정확도

OCR 인식 오류는 초기 126건에서 개선 후 37건으로 줄었습니다. 해상도 기준을 정하고, OCR 후 샘플 확인을 한 것이 가장 효과적이었습니다.

파일 용량

압축 전 평균 파일 크기는 42MB였고, 압축 후 평균 18MB로 줄었습니다. 다만 중요한 문서는 원본을 반드시 따로 보관했습니다.

검색 가능성

파일명에 날짜와 키워드를 넣고 OCR 확인을 하니 검색 시간이 평균 3분 10초에서 52초로 줄었습니다.

백업 안정성

원본 폴더와 압축본 폴더를 분리하니 실수로 원본을 덮어쓰는 위험이 줄었습니다. 오류 파일을 따로 모아 다시 처리하는 것도 도움이 됐습니다.

결론: PDF 스캔 데이터는 많이 저장하는 것보다 검색 가능한 구조가 핵심이었다

2026년 1월부터 4주간 종이 문서 386장을 스캔하고 PDF 112개를 만들면서 얻은 결론은 분명합니다. PDF 스캔 데이터는 많이 저장하는 것보다 나중에 검색 가능한 구조로 만드는 것이 핵심이었습니다.

전체 PDF 용량은 4.8GB였고, OCR 처리한 파일은 96개였습니다. 그중 OCR 오류로 다시 처리한 파일은 23개였습니다. 초기 OCR 인식 오류는 126건이었지만, 해상도 기준과 OCR 후 샘플 확인을 적용한 뒤 37건으로 줄었습니다. 압축 전 평균 파일 크기는 42MB였고, 압축 후에는 18MB까지 줄었습니다.

가장 큰 변화는 검색 시간이었습니다. 파일명을 날짜 없이 저장해 같은 제목의 PDF 18개가 섞였던 경험 이후 파일명 규칙을 바꿨고, 필요한 문서 하나를 찾는 시간이 평균 3분 10초에서 52초로 줄었습니다.

스캔 앱이나 장비보다 중요한 것은 정리 기준이었습니다. 어떤 해상도로 저장할지, 파일명을 어떻게 붙일지, OCR 후 무엇을 확인할지, 원본과 압축본을 어디에 둘지 정해야 했습니다. 이 기준이 없으면 PDF는 쌓이지만 필요한 순간에 찾기 어려운 데이터가 됩니다.

PDF 스캔 후 반드시 확인해야 할 체크리스트

  • 일반 문서는 300dpi, 작은 글씨 문서는 600dpi로 스캔했는가?
  • 200dpi로 스캔한 파일에서 글자가 흐릿하지 않은가?
  • 파일명 앞에 날짜를 넣었는가?
  • 파일명에 문서 유형과 핵심 키워드를 포함했는가?
  • 같은 제목의 PDF가 중복으로 생기지 않았는가?
  • OCR 처리 후 날짜, 금액, 이름, 사업자번호를 샘플 검색했는가?
  • 영수증 숫자 8과 3, 0과 6이 잘못 인식되지 않았는가?
  • OCR 오류가 있는 파일을 별도 폴더에 모았는가?
  • 원본 폴더와 압축본 폴더를 분리했는가?
  • 압축 후에도 글자와 숫자가 읽을 수 있는 수준인가?
  • 중요 문서는 압축본만 남기지 않고 원본도 보관했는가?
  • 백업 위치에 원본과 최종본이 모두 저장되어 있는가?

PDF 스캔 정리는 처음에는 단순 반복 작업처럼 보였습니다. 하지만 실제로 해보니 해상도, OCR, 파일명, 압축, 백업이 모두 연결되어 있었습니다. 저에게 가장 큰 교훈은 문서를 잘 스캔하는 것보다, 나중에 다시 찾을 수 있게 만드는 것이 더 중요하다는 점이었습니다.

댓글 남기기