나이브베이즈 분류를 적용한 소셜미디어 상의 신조어 감성 판별 기법
- Author(s)
- 박상진
- Issued Date
- 2018
- Keyword
- 감성사전, 나이브베이즈, 인터넷 신조어
- Abstract
- 인터넷의 발달과 스마트 폰의 보급화로 인하여 그에 따른 인터넷 문화가 형성됨에 따라 PC통신부터 지금까지 인터넷 신조어가 그 문화로 자리 잡아가고 있다. ‘SNS’의 등장과 가교역할을 하는 스마트폰의 보급화로 인해 실시간으로 데이터가 늘어나감에 따라 신조어의 발생도 같이 나타나고 있다. 신조어의 사용은 여러 장점을 가져 올 수 있는데 긴 문장을 짧은 문장으로 하여 글자 수 제한이 있는 여러 메신저의 문제점을 해결 할 수 있고 데이터의 감축 효과를 가져 온다. 최근 4차 산업혁명이 진행됨에 따라 데이터도 하나의 가치로써 평가 받고 있다. 하지만 인터넷 신조어는 사전적 의미를 갖고 있지 않아 데이터 마이닝 같은 연구의 알고리즘 성능 저하와 제약 사항이 발생 한다.
그리하여 본 논문 에서는 웹 크롤링을 통한 데이터 수집을 하여 텍스트 데이터 내에서 포함하고 있는 신조어를 추출과 감성 사전 구축을 통해 문서의 오피니언을 확인한다. 실험의 진행 과정은 세 가지로 분류하여 진행한다.
먼저 추출된 신조어는 긍정/부정 학습을 시킨다. 학습된 데이터는 신조어가 담긴 문서나 문장을 이용하여 ‘나이브 베이지안’을 사용해 조건부 확률 값을 통해 분류가 되는 지 확인 한다.
다음으로 표준어 사전을 구축 한다. 일반적으로 뉴스나 언론 매체에서는 특수한 화젯거리가 아닌 경우에는 표준어를 사용한다. 표준어 문서를 이용하여 감성 값을 도출 하고 확인하기 위해 ‘TF-IDF’을 사용해 명사 감성을 점수화 하여 데이터의 감성 값을 대입한다. 이후 신조어와 마찬가지로 분류된 감성 값을 적용하여 표준어 문서에서 감성이 분류 되는지 확인한다.
마지막으로 신조어와 표준어 감성 값을 결합하여 두 가지 방법을 함께 사용 하여 기기존의 기술의 수치와 비교 분석을 진행 한다.|From PC communication to the development of the internet, a new term has been coined on the internet, and the internet culture has been formed due to the spread of smart phones, and the newly coined word is becoming a culture.
With the advent of social networking sites and smart phones serving as a bridge, the number of data has increased in real time. The use of internet-words can have many advantages, including the use of short sentences to solve the problems of various letter-limited messengers and reduce data. However, internet words does not have a dictionary meaning and there are limitations and degradation of algorithms such as data mining.
Recently, with the influence of fourth industrial revolution, data has been formed as valued. Therefore, in this paper the opinion of the document is confirmed by collecting data through web crawling and extracting new words contained within the text data and establishing an emotional classification. The progress of the experiment is divided into three categories. First, A word collected by collecting a new word on the Internet is subjected to learned of affirmative and negative.
Next, to derive and verify emotional values using standard documents, TF-IDF is used to score noun sensibilities to enter the emotional values of the data. As with the newly Internet words, the classified emotional values are applied to verify that the emotions are classified in standard language documents.
Finally, a combination of the newly coined words and standard emotional values is used to perform a comparative analysis of the technology of the instrument.
- Alternative Title
- Sensitivity identification method for new words of social media using the naїve bayes classification
- Alternative Author(s)
- Park, Sang Jin
- Affiliation
- 조선대학교 소프트웨어융합공학과
- Department
- 산업기술융합대학원 소프트웨어융합공학과
- Advisor
- 김판구
- Awarded Date
- 2018-08
- Table Of Contents
- ABSTRACT
I. 서론 1
A. 연구 배경 및 목적 1
B. 연구 내용 및 구성 3
II. 관련연구 4
A. 인터넷 신조어 형성 원리 4
B. Text Mining을 이용한 신조어 추출 6
C. Opinion Mining(감성 분석) 8
D. 오피니언 마이닝을 통한 감성 분류에 대한 연구 12
III. 신조어 긍·부정 감성 판별 기법 13
A. 긍·부정 판별에 대한 시스템 구성 13
B. 신조어 긍·부정 감성 분석 15
1. 신조어 추출(Extract New words) 15
2. 신조어 긍정/부정 학습(Training New Words) 18
C. 표준단어 긍·부정 감성 분석 22
IV. 실험 평가 및 결과 24
A. 신조어 분석 24
B. 표준어 분석 26
C. 평가 및 결과 28
V. 결론 및 제언 32
참고문헌 33
- Degree
- Master
- Publisher
- 조선대학교 산업기술융합대학원
- Citation
- 박상진. (2018). 나이브베이즈 분류를 적용한 소셜미디어 상의 신조어 감성 판별 기법.
- Type
- Dissertation
- URI
- https://oak.chosun.ac.kr/handle/2020.oak/16550
http://chosun.dcollection.net/common/orgView/200000266892
-
Appears in Collections:
- Engineering > 3. Theses(Master)
- Authorize & License
-
- AuthorizeOpen
- Embargo2018-08-24
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.