단어의 중요도와 연관성을 고려한 키워드 추천 방법

Metadata Downloads
Issued Date
LDA Doc2Vec TF-IDF가중치
You can share information in real time anytime, anywhere, check for real-time fast-growing search terms through the Internet, and check news articles. As smartphones and the Internet have developed, a variety of service functions are increasing for users. However, if you look at online news articles, they are categorized by press and field, and if you look at Naver associated search terms, you can see only a few search words.
To address these limitations, we collect the title and content of news articles from Naver that correspond to politics by web crawl in Java environments. The collected data is processed in Korean using the KoNLP package, extracted only two or more common nouns, and extracted using LDA Topic Modeling and Doc2Vec to obtain similarity values by keyword.
To compensate for Doc2Vec resulting limits, TF-IDF was used to vector the titles and contents respectively, and the TF-IDF values were weighted to match the key word's equivalent values. In order to take into account the meaning and frequency of the words, the association of keywords was more accurately identified by generating a combined similarity by combining the similarity values of the keywords in Doc2Vec with the weight of importance as presented in this paper.
In order to evaluate the association of keywords, the PMI technique was used to evaluate the similarity between words and words, which is similar to the combined similarity results proposed in this paper, unlike the similarity values by Doc2Vec. This will allow for more relevant keywords to be recommended with keywords of association similarity.
언제 어디서나 실시간으로 정보를 공유하고 인터넷을 통해 실시간 급상승 검색어를 확인하고 뉴스 기사를 확인할 수 있다. 이렇듯 스마트폰과 인터넷이 발달하면서 사용자들에게 다양한 서비스 기능이 늘어나는 추세이다. 하지만 온라인 뉴스 기사를 살펴보면 언론사별, 분야별로 카테고리 되어있고 네이버의 연관 검색어를 보면 적은 양의 검색어 몇 개 만 볼 수 있다.
이러한 문제점을 해결하기 위해 본 논문에서는 네이버에서 제공하는 뉴스 기사 중 정치 분야에 해당하는 기사의 제목과 내용을 Java환경에서 웹 크롤링하여 수집한다. 수집된 데이터는 KoNLP 패키지를 이용해 한국어 처리를 진행하고 두 글자 이상의 보통 명사만 추출한 후 LDA 토픽 모델링을 이용해 토픽을 추출하고 Doc2Vec을 사용해 키워드별 유사도 값을 구한다.
Doc2Vec의 결과 한계점을 보완하기 위해 TF-IDF를 사용해 제목과 내용에 각각 벡터화를 진행하여 키워드별 TF-IDF 값을 만든 후 키워드별 유사도 값과 비교하여 일치하는 키워드에 TF-IDF 값을 적용시켜 중요도 가중치 값을 구하였다. 이후 단어의 의미와 빈도수를 고려하기 위해 Doc2Vec의 키워드별 유사도 값과 본 논문에서 제시하는 중요도 가중치 값을 결합하여 결합 유사도를 생성해 키워드의 연관성을 보다 정확하게 확인하였다.
키워드의 연관성을 평가하기 위해 PMI기법을 이용해 단어와 단어 간의 유사성을 평가한 결과 Doc2Vec와 달리 본 논문에서 제안한 중요도 가중치를 적용한 결합 유사도 결과와 비슷한 결과를 확인할 수 있었다. 이를 통해 결합 유사도의 키워드들을 가지고 보다 정확한 키워드 추천할 수 있게 된다.
Alternative Title
Method of Keyword Recommendation Considering Importanace and Correlation of words
Alternative Author(s)
조선대학교 산업기술융합대학원
산업기술융합대학원 소프트웨어융합공학과
Awarded Date
2019. 2
Table Of Contents
I. 서론 1
A. 연구 배경 및 목적 1
B. 연구 내용 및 구성 3

II. 관련연구 4
A. LDA 4
B. Word2Vec 및 Doc2Vec 6
1. Word2Vec 6
2. Doc2Vec 7

III. 단어의 중요도와 연관성을 고려한 키워드 추천 방법 11
A. 시스템 구성도 11
B. 뉴스 기사 토픽 추출 13
1. 전처리 과정 13
2. 토픽 추출 15
C. 연관키워드 추출 16
1. 키워드 유사도 16
2. 중요도 가중치 추출 19
3. 결합 유사도 24
IV. 실험 및 결과 26

V. 결론 29

참고문헌 30
조선대학교 산업기술융합대학원
김재현. (2018). 단어의 중요도와 연관성을 고려한 키워드 추천 방법
Appears in Collections:
Engineering > Theses(Master)(산업기술창업대학원)
Authorize & License
  • AuthorizeOpen
Files in This Item:

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.