CHOSUN

A Text/Non-Text Detection Method in Document Image using Wavelet Packet Analysis

Metadata Downloads
Author(s)
윌프레드
Issued Date
2006
Abstract
문서의 자동화된 처리와 해석은 통신과 IT 분야의 진보와 더불어 그 수요가 증가되고 있다. 디지털화된 형태로 문서를 저장하기 위한 노력이 계속되고 있으나 압축기술의 발달에도 불구하고 거대한 저장공간이 요구되고 있는 실정이다. 문서들을 텍스트와 그래픽 영역으로 분리하고 텍스트 부분은 아스키 형태로 그래픽 부분은 비트맵 형태로 저장하여 데이터베이스로 구축한다면 문서에서 텍스트 부분의 효율적인 탐색과 저장이 용이하게 될 것이다. 문서영상 내의 그래픽 영역은 텍스트 영역과 구분되는 텍스쳐 속성을 갖는다고 가정하며, 세그멘테이션 방법은 문서영상을 웨이블릿패킷으로 분해하는 웨이블릿 분석과 통계학적 패턴인식 개념들을 사용한다. 다양한 채널들은 주파수 평면에서 멀티스케일과 다중방향의 영상을 찾아내고, 채널들의 결합은 에지를 변형시켜 불연속선 검출이 가능하게 한다. 그리고 멀티스케일상의 특징벡터를 구한 후, K-means 클러스터링 알고리즘으로 텍스트/비텍스트 영역을 세그멘테이션 한다. 본 논문은 폰트크기, 스캐닝해상도, 레이아웃 형태 등 어떤 사전정보도 없이 실험하였으며, 실험결과는 텍스트/비텍스 영역을 잘 찾아내고 있음을 보여준다.
Alternative Title
웨이블릿패킷분석을 이용한 문서영상에서의 텍스트/비텍스트 검출 방법
Alternative Author(s)
Odoyo O. Wilfred
Affiliation
조선대학교 대학원
Department
일반대학원 컴퓨터공학과
Advisor
조범준
Awarded Date
2007-02
Table Of Contents
Abstract = iii
List of Figures = iv
List of Tables = v
I. Introduction = 1
II. Related Work = 3
III. Document Image Segmentation Method = 7
A. Wavelets = 7
a). What is wavelets = 7
b). Types of wavelets = 8
B. Haar's Wavelet = 10
a). One dimension Haar wavelet basis function = 12
b). Haarwaveletsintwodimensions = 15
C. Wavelet Packet Analysis overview = 16
D. Text / Non-text Segmentation Algorithm = 21
a) Wavelet packet analysis = 21
b) Entropy = 24
c) Multi-level decomposition = 26
d) Local energy estimation = 28
e) Unsupervised classifier ( K-means algorithm) = 31
IV. Experimental Result = 34
V. Conclusion = 41
References = 42
Degree
Master
Publisher
조선대학교 대학원
Citation
윌프레드. (2006). A Text/Non-Text Detection Method in Document Image using Wavelet Packet Analysis.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/6463
http://chosun.dcollection.net/common/orgView/200000233835
Appears in Collections:
General Graduate School > 3. Theses(Master)
Authorize & License
  • AuthorizeOpen
  • Embargo2008-09-01
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.