CHOSUN

코사인 유사도 알고리즘을 이용한 한국어 철자오류 교정방법

Metadata Downloads
Author(s)
박승현
Issued Date
2016
Keyword
자연어처리, 철자오류
Abstract
Long time has passed since computers which used to be a means of research were commercialized and available for the general public. People used writing instruments to write before computer was commercialized. However, today a growing number of them are using computers to write instead. Computerized word processing helps write faster and reduces fatigue of hands than writing instruments, making it better fit to making long texts. However, word processing programs are more likely to cause spelling errors by the mistake of users. Spelling errors distort the shape of words, making it easy for the writer to find and correct directly, but those caused due to users’ lack of knowledge or those hard to find may make it almost impossible to produce a document free of spelling errors. Even though people often write for chatting or on their SNS pages on the Internet, there are no set of spelling rules and manners for cyberspace and as a result, serious issues have not be raised to date. However, spelling errors in important documents such as theses or business proposals may lead to falling reliability. These spelling errors should be completely avoided, but it is not easy even for experts. Consequently, it is necessary to conduct research on high-level spelling error correction programs for the general public. This study was designed to produce a system to correct sentence-level spelling errors to normal words with Korean alphabet similarity algorithm. On the basis of findings reported in related literatures that corrected words are significantly similar to misspelled words in form, spelling errors were extracted from a corpus. Extracted corrected words were replaced with misspelled ones to correct spelling errors with spelling error detection algorithm.|계산기에서 발전하여 탄생하게 된 컴퓨터는 인간이 직접 계산하는데 시간이 오래 걸리는 문제들을 빠른 시간 내에 처리할 수 있도록 개발되어졌다. 초기의 컴퓨터는 방 하나를 차지할 정도로 크기가 거대하였고, 거대한 크기만큼 개인이 함부로 소유할 수 없을 정도로 구매 비용이 막대하였다. 하지만 기술이 발전함에 따라 컴퓨터의 크기는 점점 더 소형화 되어졌으며 그로 인해 컴퓨터의 가격이 하락하면서 일반인들도 쉽게 구매할 수 있도록 사용화 되어졌다. 기존에 사람들은 문서를 작성하기 위하여 종이와 볼펜 같은 필기도구를 이용하여 문서를 작성하였으나, 컴퓨터가 상용화 된지 오랜 시간이 지난 현재에는 컴퓨터를 이용하여 문서를 작성하는 경우가 많아졌다. 컴퓨터를 이용하여 문서를 작성하는 방식은 필기도구를 이용하여 문서를 작성하는 방식에 비해 문서의 작성 속도가 월등히 빠르며 손에 가해지는 피로 또한 적기 때문에 작성에 시간이 오래 걸리는 장문의 문서를 작성할 경우 사람들은 일반적으로 필기도구를 이용하기보다 컴퓨터를 이용하여 문서를 작성하는 경우가 많다. 하지만 컴퓨터를 이용해 문서를 작성하는 방식은 작성자가 팬을 이용해 철자를 그리는 형태의 직접적인 방식이 아닌, 키보드의 자판을 누름으로서 철자를 입력하는 간접적인 방식으로 문서를 작성하기 때문에 철자오류가 발생할 확률이 높다. 보통 철자오류는 문서를 작성하는 작성자의 눈에 쉽게 발견되기 때문에 발생 즉시 교정되어진다. 하지만 철자오류의 종류에 따라 쉽게 발견하기 힘든 부류의 철자오류가 존재하며, 또한 작성자의 지식부족으로 인해 발생한 철자오류도 존재하기 때문에 철자오류가 존재하지 않는 문서는 작성하기 어렵다. 철자오류가 발생할 경우 문장의 내용을 곡해할 수 있기 때문에 작성이 완료된 문서는 읽는 대상에게 정확한 내용을 전달 위하여 반복적으로 철자오류 교정을 수행하지만, 그럼에도 불구하고 철자오류가 존재하는 경우가 많다. 철자오류는 문장의 내용을 곡해할 뿐만이 아니라 논문이라 사업 제안서와 같은 중요 문서에서 발견될 경우 문서와 연관된 연구나 실험 혹은 사업에 대한 신뢰도를 하락시키는 문제를 발생시킬 수 있다. 문제 발생을 막기 위해 철자오류는 철저히 교정되어야 하지만 철자오류를 완벽히 교정하는 것은 교정 지식이 풍부한 교열 전문가들 또한 수행하기 어렵다. 철자오류 교정은 교정 지식이 미비한 일반인들이 수행하기에는 큰 어려움을 겪고 있으며, 더군다나 일반인들이 철자오류를 완벽히 교정한다는 것은 불가능에 가깝다. 일반인들의 철자오류 교정을 보조하고자 문서를 작성하기 위해 제작된 워드프로세서와 같은 문서 작성 프로그램은 작성자의 철자오류 교정 보조 시스템을 제공하고 있으나, 문서 작성 프로그램에서 제공하는 한국어 철자오류 교정 시스템은 사전을 기반으로 하여 규칙에 맞지 않는 철자오류를 교정하고 사전에 존재하지 않는 단어들을 표시할 뿐 문맥에 맞지 않는 철자오류는 교정하지 못하고 있다. 이 때문에 문서 작성 프로그램 사용 중 발생한 철자오류의 일부는 교정 시스템에 발견되지 못한 채 문서에 남는 경우가 존재한다. 이와 같은 문제를 해결하기 위하여 철자오류 교정 시스템에 대한 추가적인 연구가 필요하다.
본 논문은 철자오류 교정을 수행하기 위해 기존의 코사인 유사도를 이용하여 철자오류를 검출하는 알고리즘을 개량하여 철자오류를 검출할 뿐만이 아니라 추가적으로 철자오류를 교정하는 방법에 대해 연구하는 논문이다. 기존의 철자오류 교정 방식은 철자오류가 발생한 단어의 철자를 하나씩 치환한 다음 주변 단어들과 동시등장빈도를 구함으로서 철자오류를 교정한다. 하지만 이런 방식은 철자오류 교정을 완료하는데 소모되는 시간이 길어질 수 있다. 그렇기 때문에 철자오류를 교정하기 위한 방법 중 하나로 한글 편집거리 알고리즘을 사용하여 철자오류 교정 단어를 추출하게 된다. 본 논문에서는 제안하는 철자오류 교정 알고리즘의 성능을 향상시키기 위해 코사인 유사도의 임계값을 탐색하며, 최종적으로 철자오류 교정에 대한 성능을 제시한다.
Alternative Title
Method for Spelling Error Correction in Korean Using a Cosine Similarity Algorithm
Alternative Author(s)
Bak, SeungHyeon
Affiliation
조선대학교 산업기술융합대학원
Department
산업기술융합대학원 소프트웨어융합공학과
Advisor
김판구
Awarded Date
2017-02
Table Of Contents
Ⅰ. 서론 1
A. 연구 배경 및 목적 1
B. 연구 내용 및 구성 3

Ⅱ. 관련연구 4
A. 철자오류 교정 4
B. 한글 편집거리 알고리즘 7

Ⅲ. 코사인 유사도를 이용한 철자오류 교정 9
A. 철자오류 교정 9
B. 말뭉치 사전 구축 11
C. 철자오류 검출 13
1. 단어의 동시등장 빈도를 이용한 코사인 유사도 측정 13
2. 철자오류 검출 알고리즘을 사용한 검출 예시 15
D. 교정 단어 리스트 구축 18
1. 한글 편집거리 알고리즘 18
2. 철자오류 단어와 정상 단어의 편집거리 추출방법 19
E. 철자오류 교정 23

Ⅳ. 실험 및 결과 25
A. 철자오류 데이터 25
B. 철자오류 검출 28
C. 철자오류 교정 단어 리스트 구축 33
D. 철자오류 교정 36
E. 철자오류 교정 알고리즘의 성능 비교 37

Ⅴ. 결론 및 제언 39

참고문헌 40
Degree
Master
Publisher
조선대학교 산업기술융합대학원
Citation
박승현. (2016). 코사인 유사도 알고리즘을 이용한 한국어 철자오류 교정방법.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/16522
http://chosun.dcollection.net/common/orgView/200000266192
Appears in Collections:
Engineering > 3. Theses(Master)
Authorize & License
  • AuthorizeOpen
  • Embargo2017-02-21
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.