2026/06/08

, ,

안녕, FineReader! 맞춤법 교정까지 척척, 무료 Gemini AI OCR

때로는 기술이, 추억을 되살린다

영어 인터페이스 지원하는 Gemini-AI-OCR
<어설프게나마 영어 인터페이스 지원>

세상 참 많이 변했다. 「굳이 ScanTailor 사용해서 전자책을 만드는 이유」란 글을 작성하던 시기까지만 해도, 지금처럼 전자도서관이나 전자책이 활성화되는 것에 대한 큰 기대는 없었고, 또한 제미나이/GPT 같은 LLM 기반의 AI가 등장하여 코딩에 ‘코’자도 모르는 내가 직업 AI 번역 앱을 만들어 원서를 직접 번역해 읽을 줄은, 그리고 그것이 웬만한 번역가가 번역한 책보다 더 나은 독서가 될 줄은 꿈에도 몰랐다.

그래서 문득 이런 생각이 들었다. 뚝심 있게 전자책 출판을 거부하는 책을 번거롭고 힘들게 스캔하지 않고, 휴대폰으로 대충 촬영해서 제미나이 같은 AI에게 OCR을 맡기면, 맞춤법에 띄어쓰기까지 자동으로 교정되지 않을까? 하는 생각, 그리고 이게 통한다면, 예전에 제작해 둔 PDF 중 자존심 때문인지 돈이 안 돼서인지 아무튼, 여전히 전자책으로 출판되지 않은 책이 다시 보고 싶을 때, 다시 AI로 OCR에서 깔끔한 텍본으로 읽으면 좋겠다고 말이다.

막상 해보니, 내 생각과 기대는 적중했다. 그것도 기대 이상으로 말이다.

단순 추출을 넘어, ‘이해’하는 OCR

Abbyy FineReader 16
<Abbyy FineReader 16>
Gemini AI OCR
<Gemini AI OCR>

아마 ‘전자책 자작’이란 유별난 취미와 초창기 AI 분야 중 하나라고 할 수 있는 OCR이란 기술이 맞물리면서, 남달리 감회가 새로운 나머지 서두가 물먹은 카세트테이프처럼 불필요하게 길어졌다.

쉽게 말해, Gemini AI OCR은 구글의 최신 언어 모델인 Gemini의 무료 API를 활용하여, 이미지에서 텍스트를 가장 완벽하고 자연스럽게 추출하는 Windows용 데스크톱 GUI 도구다. 단순히 글자의 생김새만 따지는 기존 OCR(ABBYY, Tesseract 등)과 달리, AI가 문장의 흐름과 문맥을 이해하여 ‘가시적인’ 줄바꿈을 무시하고 자연스러운 단락으로 이어 붙여주며 오탈자를 방지한다.

다시 말해, Gemini AI OCR의 장점은 마치 사람이 받아쓰기 하는 듯한, 그래서 일반적인 스캔본은 100%라고 자부할 수 있는 정확도에 있지만, Abbyy FineReader, Adobe Acrobat 등 OCR 프로그램으로 추출한 텍스트가 종이책 레이아웃처럼 강제 줄바꿈되는 단점을 극복해 마치 EPUB에서 추출한 것 같은 자연스러운 문단을 갖춘 텍스트를 추출해 준다는 데 있다.

테스트 영상(한국어 종이책 스캔 문서 및 영어 고문서)

영어 테스트 문서: Old and Middle English Reader (1886) (출처: 위키)

한국어 테스트 문서: 법정 일기일회(출처: Z 도서관)

✨ 장점 및 주요 기능

  • 강력한 LLM 기반 인식력: 얼룩지거나 휘어진 글자도 문맥을 추론하여 정확하게 텍스트로 변환.
  • 이미지 전처리: 프로그램 내부에 자동 리사이즈, 기울기 보정(Deskew), 흑백 이진화(Threshold), 대비 강화 필터가 내장되어 있어 별도의 이미지 보정 프로그램이 필요 없음(가능하면 포토샵 같은 전문 도구의 보정 추천).
  • 직관적인 UX/UI: FineReader처럼 섬네일과 목록 보기를 지원하며, 마우스 드래그로 손쉽게 페이지 순서를 끼워 넣거나 다중 선택 삭제 지원.
  • 스마트한 API 관리: 여러 개의 API 키를 순환하며 사용하고(할당량 초과 방지), 구글 서버의 타임아웃에 대비한 최적의 비동기 백그라운드 큐(Queue) 시스템 탑재.
  • 사용자 맞춤형 후처리: 직접 조절 가능한 정규식(Regex) 에디터를 통해 불필요한 머리말, 꼬리말, 페이지 번호 등을 깔끔하게 자동 필터링.
  • 프롬프트 지원: [시스템 지시어]와 [OCR 프롬프트] 모두 사용자 정의가 가능해, 유연성과 편의성 제공.
  • 영어 인터페이스 지원.

⬇ 다운로드(업데이트: 2026/06/08) ⬇

💻 간단한 사용법

  1. API 키 세팅: 구글 AI Studio에서 무료 Gemini API 키를 발급받아 앱이 있는 폴더에 API.txt 파일을 생성한 다음 한 줄씩 넣는다.
  2. 파일 추가: 작업할 이미지를 좌측 [페이지 패널]로 드래그앤드드롭(목록 보기 모드로 순서 확인 가능!).
  3. 옵션 설정: [API 설정]에서 [1회 요청 당 이미지] 수를 이미지 가독성에 따라 적절하게 설정. 필요에 따라 [이미지 전처리] 필터 사용. RPM(분당 API 요청 수) 제한을 준수하려면 [요청 지연] 시간 5초~10초 설정. 여러 API 사용 시 [API 키 전환] 수 설정. 보정을 마친 깨끗한 이미지라면 [사고 레벨]은 ‘기본값’이나 ‘표준’, 품질이 안 좋은 이미지라면 ‘높음‘으로 설정.
  4. 시작 및 내보내기: [OCR 시작] 버튼을 누르고 커피 한 잔을 마신 뒤, 완료되면 [내보내기] 버튼으로 TXT, PDF, DOCX 파일로 저장.

💡 [꿀팁] OCR 인식률을 200% 끌어올리는 세팅 비법

일반적인 OCR 소프트웨어처럼 인식률은 이미지 가독성에 좌우되긴 하지만, 사실 핸드폰으로 대충 찍은 것도 거의 100% 인식된다. 그런데도 사전에 포토샵 보정 같은 이미지 전처리를 추천하는 이유는 가독성이 떨어지는 이미지, 즉 누런 종이책 날것의 경우 [1회 요청 당 이미지] 수에 큰 영향을 끼치기 때문이다.

깨끗한 이미지일수록 [1회 요청 당 이미지] 수를 10~20장으로 설정해도, AI(gemini-3.1-flash-lite 기준)가 페이지 구분을 명확하게 잘 해준다. 하지만, 누리끼리한 원본 상태로 5장 이상 요청하면, 간혹 AI가 페이지 구분을 못 해 한 페이지에 5장의 텍스트를 몽땅 추출해 놓는 경우가 있다. 가독성이 떨어지는 문서는 AI가 ‘받아쓰기’에 연산력을 많이 소비한 나머지 페이지 구분이나 줄바꿈 규칙 같은 것에 미처 신경 쓰지 못하기 때문이다.

포토샵 보정 전과 후

① 그래서 포토샵 보정을 거친 깔끔한 이미지는 [1회 요청 당 이미지] 수를 gemini-3.1-flash-lite 기준으로 10장~20장으로 잡아도 페이지가 명확히 구분되고 줄바꿈도 자연스럽다.

② 누리끼리하고 가독성도 나쁜 이미지는 [1회 요청 당 이미지] 수를 3장 이하로 설정할 것을 추천한다. gemini-3.1-flash-lite의 무료 티어 일일 요청 횟수가 500회로 넉넉하고, 다계정을 활용하면 그 이상이기 때문에 API가 부족하지는 않다. 다만 작업 시간이 그만큼 더 소요된다.

③ 페이지 구분자, 페이지 번호, 머리말/꼬리말 일괄 삭제는 등의 후처리는 「PDF/OCR 후처리 특화 텍스트 교정기」 추천.

🎯 이런 분들께 강력히 추천!

  • 전자책 자가 스캔족: 스캔한 전공 서적, 소설 등을 완벽한 텍스트(EPUB/TXT)로 변환해 TTS(텍스트 읽어주기)로 듣고 싶으신 분.
  • 번역가 및 연구원: 외국어 원서나 옛날 논문 PDF에서 DeepL 등 AI 번역기에 넣을 아주 깔끔한 원문 텍스트를 추출해야 하는 분.
  • 기존 OCR에 지친 분들: ABBYY나 vFlat 등의 인식 오류, 불필요한 줄바꿈을 일일이 백스페이스로 지우는 노가다에 지치신 분.

⚠ 앱 사용 시 주의 사항

  • 무료 API 할당량: 구글 Gemini 무료 API는 분당/일일 요청 횟수 제한이 있다. 책 한 권(수백 페이지)을 작업할 때는 구글 계정 2~3개로 API 키를 여러 개 발급받아 API.txt에 넣어둔 다음 [API 키 전환] 수를 1~5개 정도로 설정해 두면 프로그램이 알아서 키를 교체해 가며 작업.
  • 보안 및 프라이버시: 클라우드(구글 서버)로 이미지가 전송되어 텍스트로 변환되는 방식이므로, 주민등록증, 보안 서약서 등 극비의 개인정보/기밀문서는 절대로 사용하지 말 것!

0 comments:

댓글 쓰기

댓글은 검토 후 게재됩니다.
본문이나 댓글을 정독하신 후 신중히 작성해주세요