CHOSUN

확장된 의미역 결정을 이용한 문서 유사성 판단

Metadata Downloads
Author(s)
이은지
Issued Date
2018
Keyword
의미역 결정, 문서 유사성 측정, 표절 검사
Abstract
문서의 재사용은 인터넷과 스마트폰의 보급으로 인하여 정보 콘텐츠의 디지털화 과정에서 두드러지게 나타나고 있으며, 단어의 삽입, 삭제 교체, 어순의 변경 등 복잡한 형태로 이뤄지고 있다. 특히, 문서 내의 단어가 같은 의미의 유사 단어로 교체되었을 때, 기존의 형태적 유사성 측정방법의 경우 유사성 측정의 대상으로 고려되지 않는다는 문제점이 있다. 이러한 문제를 해소하기 위해 유사도 측정에 대한 다양한 연구가 수행되어 왔다.

본 연구는 의미역 결정(semantic role labeling)을 이용하여 문장의 구조 분석을 기반으로한 의미적 유사성 측정방법을 제안한다. 의미역 결정은 구문 분석을 기반으로 문장 성분을 술어-논항(Predicate-Argument)구조로 분석하여, 각 문장 성분이 문장 내에서 맡고있는 의미 역할을 결정 및 태깅하는 작업을 말하며, 문서의 의미적 이해를 위해 기계 번역이나 질의응답시스템 등 다양한 분야에서 활용되고 있다. 문장의 술어-논항구조는 문장의 의미를 나타내는 중요한 성분으로 특정의미의 술어에는 필수적인 논항정보가 필요하게 되어, 유사한 의미의 문장 간에는 공통된 술어-논항정보가 사용되게 된다.

본 논문에서는 기존의 유사성 측정방법으로 검출하기 어려운 다시쓰기(paraphrasing)문장 등 변형이 많이 이루어진 유사 문장에 대한 검출 성능을 향상시키기 위해 의미역 결정을 이용하였다. 기존 의미역 결정 도구들은 기 구축된 언어자원에 기반하여 문서 분석을 수행하고 있으며, 언어자원의 범주에 따라서 문서 분석의 성능이 좌우된다.

본 논문에서는 기존 의미역 결정을 위한 언어자원 중 수작업으로 구축되어 높은 정확성을 갖으며, ‘술어’와 ‘논항’에 대한 의미 정보를 추가한 FrameNet을 활용하였으며, FrameNet의 자원 부족의 문제를 해소하기 위하여 FrameNet을 확장하는 과정을 수행하였다. 그 후, 확장된 FrameNet을 이용하여 두 문서에 의미역 결정을 수행을 통해 얻게 된 술어-논항정보를 문서의 유사성을 측정하기 위한 특징 정보로 선정하여, 두 문서 간의 유사성을 측정하는 과정을 수행하였다.

본 논문에서는 두 문서간 유사성을 측정하기 위해 확장된 FrameNet을 통해 얻게된 의미역 결정 정보를 이용하였으며, 제안된 방법의 성능평가를 위해 기존에 문서간 유사성 측정에 활용되고 있는 코사인 유사도, 부분 문자열 유사도와 비교를 통한 문서의 유사성 측정 방법과 비교하였다. 동일한 실험데이터에 제안된 유사성 측정 방식을 적용해 본 결과 본 논문에서 제안한 방법은 문서의 수정을 많이 가하지 않는 표절 문서에 대해서는 기존의 방법과 큰 성능의 차이는 없었지만, 단어의 변형, 문장 구조의 변형이 이루어진 다시쓰기 문장의 경우에는 기존의 방법들에 비해 개선된 결과를 확인 할 수 있었다.|Reusing documents is very common in the process of digitalizing information contents thanks to the Internet and the popularity of smartphone, and is in the complicated form of word insertion, deletion and replacement, and word order change. In particular, where a word in a document is replaced by a similar word semantically the same, it is not considered as an object of measuring similarity in the conventional method for measuring morphological similarity. Therefore, it has been studied to measure similarity to solve the aforementioned problem.

This study suggests a method for measuring semantic similarity, based on sentence structure analysis using semantic role labeling. Semantic role labeling is based on syntax analysis to analyze sentence elements in the Predicate-Argument structure, then determine and tag semantic roles of each sentence element in a sentence. It is used in various fields including machine translation or question-answering systems for semantic understanding of a document. Because the Predicate-Argument structure of a sentence is an important element showing the meaning thereof, and a predicate with a specific meaning requires essential argument information, common Predicate-Argument information is used for sentences with similar meaning.

In this study, semantic role labeling is used to improve detection performance for similar sentences having many transformations, for example, paraphrasing not detected easily in the conventional similarity measurement methods. Conventional semantic role labeling tools conduct document analysis based on language resources already constructed, and document analysis performance depends on the category of language resources.

In this study, FrameNet, one of conventional language resources for semantic role labeling, is used, which is manually constructed and very accurate, and to which the semantic information of ‘predicative’ and ‘argument’ is added. The process of extending FrameNet was conducted to address the issue of insufficient resources of FrameNet. The extended FrameNet is then used to select the predicative-argument information obtained through semantic role labeling for two documents as feature information for measuring document similarity and then measure similarity between two documents.

In this study, semantic role labeling information is used, which is obtained through the extended FrameNet for measuring similarity between two documents. The result is then compared with the conventional methods for measuring similarity between documents by comparing it with cosine similarity and partial string similarity used for measuring similarity between documents. Application of the suggested method for measuring similarity to the same experiment data reveals that the method suggested in this study does not show much difference from the conventional methods for plagiarized documents in which the documents are not modified much, but implements better results than the conventional methods for paraphrased documents with modified words and sentence structure.
Alternative Title
Determination of Document Similarity Using Extended Semantic Role Labeling
Alternative Author(s)
Eunji Lee
Department
일반대학원 컴퓨터공학과
Advisor
김판구
Awarded Date
2018-08
Table Of Contents
ABSTRACT

Ⅰ. 서 론 1
1. 연구 배경 1
2. 연구 내용 및 범위 4

Ⅱ. 관련 연구 7
1. 문서 표절 유형 7
2. 문서 유사성 측정 9
1) 문자 기반 유사성 측정 11
2) 벡터 공간 모델 기반 유사성 측정 13
3) 의미 기반 유사성 측정 14
4) 구문 정보 기반 유사성 측정 17
3. 의미역 결정 18

Ⅲ. 언어자원을 이용한 의미역 결정 확장 22
1. FrameNet 확장 방법 22
1) FrameNet 구조 22
2) Paraphrase Database 구조 24
3) Paraphrase Database를 이용한 FrameNet 확장 26
2. 확장된 FrameNet 학습 및 성능평가 29

Ⅳ. 확장된 의미역 결정을 이용한 문서 유사성 측정 34
1. 전처리 과정 35
2. 확장된 FrameNet을 이용한 의미역 결정 37
1) 서술어 인식 37
2) 서술어 분류 39
3) 논항 인식 및 분류 41
3. 문서 유사성 측정 44

Ⅴ. 실험 및 성능평가 46
1. 실험 데이터 46
2. 문서 유사성 측정 48
1) 부분 문자열 기반 유사성 측정 48
2) 확장된 FrameNet 이용한 유사성 측정 50
3. 실험 결과 및 성능 평가 56
1) 문서 유사성 측정 결과 56
2) 성능 평가 60

Ⅵ. 결론 및 향후 연구 62

참 고 문 헌 64
Degree
Doctor
Publisher
조선대학교 일반대학원
Citation
이은지. (2018). 확장된 의미역 결정을 이용한 문서 유사성 판단.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/13693
http://chosun.dcollection.net/common/orgView/200000267032
Appears in Collections:
General Graduate School > 4. Theses(Ph.D)
Authorize & License
  • AuthorizeOpen
  • Embargo2018-08-24
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.