CHOSUN

지능적인 웹 검색을 위한 의미적 문서 태깅 방법 연구

Metadata Downloads
Author(s)
황명권
Issued Date
2010
Keyword
문서 태깅|문서 검색|문서 분류|워드넷|지식베이스|의미적 유사도|문맥정보|위키피디아
Abstract
Nowadays, the fast advance of digital technologies and the current Web environment have been accelerating the field of information retrieval and processing. The Internet space using the Web is not strange any more to most people and they can obtain any information desired from the Web. These changes have spawned a great deal of research aiming at enhancing service and convenience. Thus, many computer science researchers are committed to finding more useful and efficient methods to provide appropriate results to meet users' needs. Among those, the methods of this dissertation have been studied for semantic document tagging to realize Semantic Web as an ultimate purpose.

Semantic Web is a very important technique aiming at processing and understanding the information spread on the Web and subsequently providing semantic and exact retrieval results. To realize Semantic Web, this research concentrates on tagging methods of text documents. The amount of the texts is increasing according to trend of Web 2.0 and it is the most frequently utilized communication medium to express and share information between people. Therefore, the text retrieval is important and this research proposes tagging methods of Web documents to provide standardized, systematic and semantic retrieval.

The previous works on Web document tagging generally choose core words from a document itself. However, the core words are not standardized taggers so, in retrieving, users should make an effort to grasp the tagger words first. To improve the point, this research contains methods to utilize titles (Wiki concept) of Wikipedia documents and to find the best Wiki concept which describes the Web documents (target documents). In addition to these methods, the research tries to classify target documents into Wikipedia category (Wiki category) for semantic document interconnections.

In order to use Wiki categories and concepts for classifying and tagging target documents, the research extracts context information from Wiki concepts, Wiki categories and target documents and finds the nearest Wiki categories and concepts of target documents through similarity measure. Experimenting diverse cases, it was confirmed that this research can provide semantic classification and tagging methods and that the context information of documents has much potentiality to be applied to various works for Semantic Web. By the way, it is worth noting that some future works, which can give semantics to proper nouns and technical terms, need to be done.
Alternative Title
Semantic Document Tagging Methods for Intelligent Web Retrieval
Alternative Author(s)
Myunggwon Hwang
Affiliation
컴퓨터공학과
Department
일반대학원 컴퓨터공학과
Advisor
김판구
Awarded Date
2011-02
Table Of Contents
Ⅰ. 서 론 1
A. 연구 배경 1
B. 연구 목적 4
C. 연구 방법 및 내용 6

Ⅱ. 관련 연구 8
A. 지식베이스 기반 연구 8
1. 워드넷(WordNet) 8
2. 지식베이스 개념 확장 11
3. 지식베이스 관계 확장 16
4. 개념들 사이의 의미적 유사도(Semantic Similarity) 측정 방법 18
B. 문서 검색에 관한 연구 23
1. 의미적 주제 선정 방법 23
2. 문서 유사도 측정 방법 25
3. 문서 태깅 방법 26
C. 위키피디아 및 응용 연구 29
1. 위키피디아(Wikipedia) 29
2. 위키피디아 기반 연구 31
D. 선행연구 35
1. 워드넷 확장 방법 35
2. 워드넷 확장 결과 및 성능 36

Ⅲ. 위키피디아 문맥 정보 추출 38
A. 위키피디아 문맥 정보 추출을 위한 절차 및 용어 설명 38
B. 전처리(Pre-processing) 40
C. 키워드 가중치(Keyword Weight) 측정 42
D. 의미적 가중치(Semantic Weight) 측정 45
E. 문맥 가중치(Context Weight) 측정 및 문맥 정보 형성 52

Ⅳ. 의미적 문서 태깅 방법 56
A. 타겟 문서의 문맥 정보 추출 56
B. 위키피디아 카테고리 형성 및 문맥 정보 형성 59
C. 카테고리로 문서 분류 및 의미적 문서 태깅 62

Ⅴ. 실험 및 결과 평가 69
A. 문맥 정보 추출 정확도 평가 69
1. 위키 개념에 따른 문맥 정보 추출 정확도 70
2. 위키 카테고리에 따른 문맥 정보 추출 정확도 74
3. 타겟 문서의 문맥 정보 추출 정확도 76
4. 비교평가 결과 78
B. 위키 카테고리로 분류 및 위키 개념 태깅 정확도 평가 80

Ⅵ. 결론 84

참 고 문 헌 86
Degree
Doctor
Publisher
조선대학교 대학원
Citation
황명권. (2010). 지능적인 웹 검색을 위한 의미적 문서 태깅 방법 연구.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/9019
http://chosun.dcollection.net/common/orgView/200000241355
Appears in Collections:
General Graduate School > 4. Theses(Ph.D)
Authorize & License
  • AuthorizeOpen
  • Embargo2011-03-03
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.