CHOSUN

워드 임베딩을 이용한 미등록어의 의미적 대체

Metadata Downloads
Author(s)
김정인
Issued Date
2018
Abstract
Natural language refers to a language developed naturally to express intention or exchange opinions as a group of human passes through historically. Unlike artificial languages, natural languages are often ambiguous and have many omitted words or paraphrases. Furthermore, social knowledge is also required to properly comprehend a natural language; it is very difficult for computers to understand it. Processing a natural language using a computer is referred to as natural language processing; one of the primary research goals in the field of natural language processing is to understand and imitate natural languages in a computer environment.

Morphological analysis in natural language processing refers to the analysis of a word in a sentence in terms of morphemes, the smallest unit of meaning. A morpheme is the smallest unit of a word which has a certain meaning in linguistics; moreover, it is a unit of a word whereby the meaning disappears if analyzed further. Although it can be the word itself, in general, it is a unit smaller than the word. One of the most common problems in analyzing a natural language is finding a word that is similar to a out-of-vocabulary word.

When a person understands a sentence containing a out-of-vocabulary word, he/she determines its most appropriate meaning with a substituted word by using the context to determine the meanings of words based on the conventional concept system that has been learned. The core of such a concept originates from the distribution hypothesis; this hypothesis is explained by John Rupert Firth’s famous saying, “You shall know a word by the company it keeps.” In other words, words that tend to appear together in similar contexts tend to have similar meanings.

This study proposes the use of the Word2VnCR algorithm that substitutes a out-of-vocabulary word with a similar word. To extract similar candidates for out-of-vocabulary words, word-embedding is learned using a training dataset; afterwards, similar word candidates are extracted. For the similar word candidates that have been extracted, the sematic similarities of adjacent words around the out-of-vocabulary word are measured, and a similar word that has the highest similarity value is selected. This word replaces the out-of-vocabulary word.


To prove the excellence of the proposed Word2VnCR algorithm, a comparative experiment was performed using the Word2VnCR algorithm and the Word2Vec algorithm for similar word substitutions of out-of-vocabulary words from the NUS sms Corpus. The results showed that the Word2VnCR algorithm showed higher performance than the Word2Vec algorithm in terms of accuracy for the substitution of a out-of-vocabulary word with a similar word.

As the final outcome, the Word2VnCR algorithm proposed in this study showed high accuracy when substituting a out-of-vocabulary word with a similar word. However, the result of this experiment is affected depending on how the training dataset is built. Similar word candidates of out-of-vocabulary words cannot be accurately extracted because the word-embedding learning of training dataset is not properly done. Therefore, the Word2VnCR algorithm needs the task of adding texts having the following characteristics to the training data: few out-of-vocabulary words appear, and the words adjacent to these out-of-vocabulary words are composed based on sematic meanings.|인간 집단이 역사적으로 지나오는 동안에 의사 전달이나 의견 교환을 하기 위하여 자연적으로 발생한 언어를 자연 언어 혹은 자연어라 한다. 자연 언어는 인공언어와 달리 애매함이나 그때마다 여러 가지 생략이나 환언함이 있다. 더욱이 사회적인 지식 등도 필요하기 때문에 컴퓨터가 이해하는 것은 매우 곤란하다. 컴퓨터를 사용하여 자연 언어를 처리하는 것을 자연어 처리라고 하며, 컴퓨터 환경에서 자연 언어를 이해하고 모방하는 것이 자연 언어 처리 분야의 연구 목표 중 하나이다.

자연 언어 처리에서 말하는 형태소 분석이란 문장의 어절을 최소의 의미 단위인 형태소로 분석하는 것을 의미한다. 형태소는 언어학에서 일정한 의미가 있는 가장 작은 말의 단위로 더 분석하면 뜻이 없어지는 말의 단위이다. 단어 그 자체가 될 수도 있고, 일반적으로는 단어보다 작은 단위이다. 자연 언어를 분석하는데 가장 대표적인 문제점은 미등록어의 유사 단어를 찾는 부분이다.

사람은 미등록어가 포함된 문장을 이해할 때, 기존에 학습된 개념체계를 바탕으로 문맥 내 동시출현단어들의 의미를 이용해 대체 단어로 가장 접합한 의미를 판별한다. 이러한 개념의 핵심은 분포 가설에 기인하며, 이 가설은 언어학자 John Rupert Firth의 유명한 말 “You shall know a word by the company it keeps”로 설명되곤 한다. 즉 비슷한 맥락에서 함께 나타나는 경향이 있는 단어들은 비슷한 의미를 가지는 경향이 있다.

본 연구는 형태소 분석 오류인 미등록어를 유사 단어로 대체하는 Word2VnCR 알고리즘을 제안한다. 미등록어의 대체 후보 단어를 추출하기 위해 학습 데이터 셋을 워드 임베딩 학습한 뒤 대체 후보 단어를 추출한다. 추출된 대체 후보 단어들은 미등록어 주변의 인접 단어와 의미적 유사도를 측정해 높은 유사도 값을 가지는 대체 단어를 선정하고 이를 미등록어와 대체 한다.

제안된 Word2VnCR 알고리즘의 우수성을 입증하기 위해 NUS sms 말뭉치를 기반으로 미등록어의 유사 단어 대체를 Word2VnCR 알고리즘과 Word2Vec 알고리즘을 사용하여 비교 실험 하였다. 두 알고리즘을 이용한 미등록어의 유사 단어 대체 실험 결과 Word2VnCR 알고리즘이 미등록어를 의미가 유사한 단어로 대체하는데 있어 정확도면에서 Word2Vec 알고리즘 보다 높은 성능을 보이는 것이 확인되었다.

결과적으로 이 연구에서 제안하는 Word2VnCR 알고리즘은 미등록어를 의미가 유사한 단어로 대체하는데 있어 높은 정확도 나타내었다. 그러나 학습 데이터 셋을 어떻게 구축하느냐에 따라 실험의 결과는 영향을 받는다. 학습 데이터 셋의 워드 임베딩 학습이 재대로 이루어 지지 않는 다면 미등록어의 대체 후보 단어를 정확히 추출할 수 없기 때문이다. 따라서 Word2VnCR 알고리즘은 미등록어가 적게 출현하고 미등록어의 인접 단어가 의미적인 단어로 이루어진 텍스트를 학습 데이터에 추가하는 작업이 필요하다.
Alternative Title
Word Embedding based Semantic Alternation for Out-of-Vocabulary Word
Alternative Author(s)
Jeongin Kim
Department
일반대학원 컴퓨터공학과
Advisor
김판구
Awarded Date
2019-02
Table Of Contents
목 차

ABSTRACT

Ⅰ. 서 론 1
1. 연구 배경 1
2. 연구 내용 및 범위 4

Ⅱ. 관련 연구 7
1. 미등록어의 의미적 대체 연구개요 7
2. 사전 기반 미등록어 대체 기법 7
3. 엔그램 기반 미등록어 대체 기법 9
4. 동시출현단어 기반 미등록어 대체 기법 14
5. 워드 임베딩 기반 미등록어 대체 기법 18

Ⅲ. Word2VnCR 알고리즘을 위한 배경 이론의 제안 22
1. 문맥을 통한 단어 간 연관성 22
1) 단어의 주변을 보면 그 단어를 안다 22
2. 단어 간 의미적 유사도 29
1) 단어 간 의미적 유사도는 측정이 가능하다 29



Ⅳ. Word2VnCR 알고리즘 기반 미등록어의 대체 방법 34
1. 전처리(Preprocessing) 34
2. 미등록어의 대체를 위한 Word2VnCR 알고리즘의 적용 38

Ⅴ. 실험 및 결과 43
1. 실험 데이터 43
2. 베이스라인(Baseline) 실험 47
3. Word2VnCR 알고리즘 기반 실험 49

Ⅵ. 결론 및 향후 연구 53

참 고 문 헌 55
Degree
Doctor
Publisher
조선대학교 대학원
Citation
김정인. (2018). 워드 임베딩을 이용한 미등록어의 의미적 대체.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/13795
http://chosun.dcollection.net/common/orgView/200000267235
Appears in Collections:
General Graduate School > 4. Theses(Ph.D)
Authorize & License
  • AuthorizeOpen
  • Embargo2019-02-08
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.