한손도구
한손도구

텍스트 추출기

PDF, Word, Excel, CSV, HWP, HWPX 문서 및 이미지(OCR)에서 텍스트를 추출합니다.

문서 또는 이미지 파일 업로드

클릭하여 파일을 선택하거나 여기에 끌어다 놓으세요

지원 형식: PDF, DOCX, XLSX, CSV, HWP, HWPX, PNG, JPG, GIF, BMP, TIFF, WEBP

최대 파일 크기: 10MB

텍스트 추출기

텍스트 추출기 안내

텍스트 추출기란?

텍스트 추출기는 다양한 문서 파일과 이미지에서 텍스트를 추출하여 일반 텍스트(TXT) 또는 마크다운(MD) 형식으로 변환해주는 도구입니다. ■ 지원하는 파일 형식 • PDF — 디지털 PDF 문서의 텍스트 및 테이블 추출, 스캔 PDF는 OCR 자동 적용 • DOCX — Microsoft Word 문서의 단락과 표 추출 • XLSX — Microsoft Excel 통합문서의 모든 시트 데이터 추출 • CSV — 쉼표로 구분된 텍스트 파일 (UTF-8, CP949, EUC-KR 자동 감지) • HWPX — 한컴오피스 한글 문서 (XML 기반 최신 형식) • HWP — 한컴오피스 한글 문서 (바이너리 기반 구형 형식) • 이미지 — PNG, JPG, JPEG, GIF, BMP, TIFF, WEBP (OCR로 텍스트 인식, 한국어+영어 지원) 업무 중 문서에서 텍스트만 필요한 경우가 자주 있습니다. 예를 들어 PDF 보고서의 내용을 다른 문서에 붙여넣거나, Excel 데이터를 텍스트로 변환하거나, 한글 문서의 내용을 마크다운으로 정리하거나, 캡처 이미지에서 텍스트를 추출하는 작업 등이 있습니다. 이 도구를 사용하면 별도의 프로그램 설치 없이 웹 브라우저에서 간편하게 텍스트를 추출할 수 있습니다. 추출된 텍스트는 화면에서 바로 확인하고, 클립보드에 복사하거나 파일로 다운로드할 수 있습니다.

사용 방법

■ 파일 업로드 업로드 영역을 클릭하여 파일 선택 대화상자에서 문서 또는 이미지를 선택하거나, 파일을 직접 끌어다 놓아 업로드합니다. 지원되는 확장자(.pdf, .docx, .xlsx, .csv, .hwpx, .hwp, .png, .jpg, .jpeg, .gif, .bmp, .tiff, .webp)의 파일만 업로드 가능합니다. ■ 출력 형식 선택 두 가지 출력 형식을 제공합니다: ① 텍스트 — 순수 텍스트 형식으로 추출합니다. 표(테이블)는 탭으로 구분된 형태로 출력됩니다. 간단히 내용만 필요할 때 적합합니다. ② 마크다운 — 마크다운 형식으로 추출합니다. 표는 파이프(|) 구분 마크다운 테이블로 변환되어 구조가 보존됩니다. Notion, Obsidian 등 마크다운 편집기에 붙여넣을 때 유용합니다. ※ 이미지 파일의 경우 출력 형식에 관계없이 OCR로 인식된 텍스트가 출력됩니다. ■ 텍스트 추출 '텍스트 추출' 버튼을 클릭하면 서버에서 문서를 분석합니다. 파일 크기와 복잡도에 따라 수 초가 소요될 수 있습니다. 이미지나 스캔 PDF의 경우 OCR 처리로 인해 시간이 더 걸릴 수 있습니다. ■ 결과 확인 및 저장 추출 완료 후 미리보기 영역에서 내용을 확인합니다. '복사' 버튼으로 클립보드에 복사하거나, '다운로드' 버튼으로 파일을 저장할 수 있습니다. 텍스트 형식이면 .txt, 마크다운 형식이면 .md 파일로 다운로드됩니다. ■ 주의사항 • 업로드된 파일은 텍스트 추출 후 서버에서 즉시 삭제됩니다. • OCR 인식률은 이미지 해상도와 글꼴 선명도에 따라 달라질 수 있습니다.

지원 형식별 추출 방식

■ PDF 추출 PyMuPDF 라이브러리를 사용하여 페이지별로 텍스트를 추출합니다. 페이지에 텍스트가 거의 없는 경우(스캔 PDF) 자동으로 OCR을 적용하여 이미지에서 텍스트를 인식합니다. 마크다운 모드에서는 두 단계의 테이블 감지가 작동합니다: • 1단계 — 구조화된 테이블: PDF 내부의 명시적 테이블 구조를 감지합니다. • 2단계 — 비정형 테이블: 텍스트의 좌표(x, y 위치)를 분석하여 시각적으로 정렬된 데이터를 테이블로 인식합니다. Y좌표 클러스터링과 X좌표 열 감지 알고리즘을 사용합니다. ■ 이미지 OCR 추출 Tesseract OCR 엔진을 사용하여 이미지에서 텍스트를 인식합니다. 한국어와 영어를 동시에 인식하며, PNG, JPG, GIF, BMP, TIFF, WEBP 형식을 지원합니다. ■ DOCX 추출 python-docx 라이브러리로 문서의 단락(paragraph)과 표(table)를 순서대로 추출합니다. 마크다운 모드에서 표는 파이프 구분 형식으로 변환됩니다. ■ XLSX 추출 openpyxl 라이브러리로 통합문서의 모든 시트를 읽습니다. 읽기 전용 모드로 처리하여 메모리를 효율적으로 사용합니다. 마크다운 모드에서 여러 시트가 있으면 각 시트명이 소제목으로 표시됩니다. ■ CSV 추출 Python 표준 라이브러리의 csv 모듈을 사용합니다. 인코딩은 UTF-8 → CP949 → EUC-KR 순서로 자동 감지됩니다. 한국어가 포함된 CSV 파일도 정상 처리됩니다. ■ HWPX 추출 python-hwpx 라이브러리로 최신 XML 기반 한글 문서의 텍스트를 추출합니다. 한컴오피스 설치 없이 처리 가능합니다. ■ HWP 추출 pyhwp 라이브러리로 구형 바이너리 한글 파일을 처리합니다. HWP5 형식을 UTF-8 텍스트로 변환합니다.

알아두면 좋은 팁

■ 스프레드시트는 마크다운 형식 추천 Excel(.xlsx)이나 CSV 파일처럼 표 구조의 데이터를 추출할 때는 마크다운 형식을 선택하세요. 테이블 구조가 보존되어 가독성이 훨씬 좋습니다. 텍스트 형식으로 추출하면 탭 구분만 되어 구조를 파악하기 어려울 수 있습니다. ■ PDF 테이블 추출 활용 PDF 내 표 데이터가 필요하다면 마크다운 형식을 선택하세요. 좌표 기반 비정형 테이블 감지 기능이 도형+텍스트로 구성된 비표준 테이블도 인식합니다. 다만 매우 복잡한 레이아웃이나 셀 병합이 많은 표는 완벽히 재현되지 않을 수 있습니다. ■ 이미지 OCR 활용 팁 이미지에서 텍스트를 추출할 때는 해상도가 높고 글자가 선명한 이미지일수록 인식률이 높습니다. 기울어진 이미지나 배경이 복잡한 이미지는 인식률이 낮을 수 있습니다. 한국어와 영어가 혼합된 이미지도 동시에 인식합니다. ■ 스캔 PDF 자동 OCR 스캔 PDF를 업로드하면 텍스트가 거의 없는 페이지를 자동으로 감지하여 OCR을 적용합니다. 디지털 텍스트가 있는 페이지는 기존 방식으로 추출하고, 이미지만 있는 페이지에만 OCR을 사용하므로 혼합 PDF도 정상 처리됩니다. ■ 한글(HWP/HWPX) 문서 변환 한컴오피스가 설치되지 않은 환경에서 한글 문서의 내용을 확인하고 싶을 때 유용합니다. HWPX(최신 형식)가 HWP(구형 형식)보다 추출 정확도가 높으므로, 가능하면 HWPX 형식을 사용하세요. ■ 대용량 파일 처리 파일이 크거나 페이지가 많은 PDF의 경우 추출에 시간이 걸릴 수 있습니다. 특히 OCR이 필요한 스캔 PDF는 페이지당 처리 시간이 더 소요됩니다. 필요한 페이지만 별도로 추출한 후 업로드하면 더 빠르게 처리됩니다. ■ 인코딩 문제 해결 CSV 파일에서 한글이 깨지는 경우는 거의 없습니다. UTF-8, CP949, EUC-KR 인코딩을 자동으로 감지하기 때문입니다. 만약 다른 인코딩의 파일이라면 먼저 텍스트 편집기에서 UTF-8로 저장한 후 업로드하세요.

자주 묻는 질문

관련 계산기