CHOSUN

문서 내 단어 분포차를 고려한 개선된 범주 분류 방법

Metadata Downloads
Author(s)
이재욱
Issued Date
2016
Abstract
Recently, the population of users of Social Network Service has been increa-sing due to the development of smart devices that is where big-data be are accumulated. Pattern recognition, machine learning, nature language processing can process and analyze the big-data. Nature language processing is one of the methods which deals with human language using computer. This area fo-cuses on a human availability, and many other applications such as keyword extraction, information retrieval, document summarization, document classificat-ion and so on about a human availability.

This paper proposed the method of extracting keyword that special feature words assign high score and without discernment words assign low score in document. First, we extract one of the representative word that same meaning and different shape words such as neologism, abbreviation and synonym word using ‘redirect’ option of Wikipedia. And then, we calculate the deviation to consider of all documents. Principal keyword have high weight value by assigning additional values to words above threshold value.

As a result, the precision rate has been increased up to 1.15% than the TF-IDF method.
Alternative Title
An improved category classification method considering word distribution difference in the document
Alternative Author(s)
JaeUk Lee
Affiliation
조선대학교 대학원 컴퓨터공학과
Department
일반대학원 컴퓨터공학과
Advisor
김판구
Awarded Date
2017-02
Table Of Contents
Ⅰ. 서론 1
1. 연구 배경 및 목적 1
2. 논문의 구성 3

Ⅱ. 관련 연구 4
1. 키워드 추출 방법 4
1) 이진 가중치 5
2) 단어 빈도 5
3) TF-IDF 6
4) TF-ICF 7
5) TF-ISF 8
2. 문서 유사도 측정 9
1) 코사인 유사도(Cosine Similarity) 9
2) 문서 빈도(Document Frequency) 10
3) 카이제곱 통계량( Statistics) 11
4) 상호 정보량(Mutual Information) 12
5) 정보 획득량(Information Gain) 13

Ⅲ. 문서 내 단어 분포를 고려한 키워드 가중치 측정 14
1. 전처리 15
1) 토크나이징(Tokenizing) 15
2) 불용어(Stop word) 제거 15
3) 스태밍(Stemming) 16
4) 품사 태깅(POS Tagging) 17
5) 명사 추출 19

2. 위키피디아를 이용한 단어 확장 방법 20
1) 위키피디아를 이용한 정보 추출 20
2) Redirect 기능을 이용한 대표 단어 추출 21

3. 단어의 분포를 이용한 가중치 측정 방법 23
1) 단어 분포 편차가 큰 경우 24
2) 단어 분포 편차가 작은 경우 25
3) 모든 문서를 고려한 편차 측정 방법 27

Ⅳ. 실험 및 평가 30
1. 실험 데이터 30
2. 카테고리 별 사전데이터 구축 31
3. 표준편차를 적용한 키워드 가중치 측정 32
4. 비교 실험 35


Ⅴ. 결론 및 향후연구 38


【참고문헌】 39
Degree
Master
Publisher
조선대학교 대학원
Citation
이재욱. (2016). 문서 내 단어 분포차를 고려한 개선된 범주 분류 방법.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/13099
http://chosun.dcollection.net/common/orgView/200000266010
Appears in Collections:
General Graduate School > 3. Theses(Master)
Authorize & License
  • AuthorizeOpen
  • Embargo2017-02-16
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.