CHOSUN

단어 임베딩과 LSTM을 활용한 비속어 판별 방법

Metadata Downloads
Author(s)
이명호
Issued Date
2020
Abstract
현재 인터넷사용자가 급격히 증가하면서 사이버폭력도 급격하게 늘고 있는 추세이다. 사이버폭력은 당사자의 생명을 위협하고 있고 실제로 자살하는 경우도 있다. 이에 따라 사이버폭력을 예방하기 위한 노력이 진행중에 있다. 사이버폭력 피해유형은 사이버 언어폭력, 사이버 명예회손, 사이버 스토킹, 사이버 성폭력, 신상정보 유출, 사이버 따돌림, 사이버 갈취, 사이버 강요 총 8가지 유형으로 나뉜다. 방송통신위원회 ‘2019년 사이버폭력 실태조사 결과 발표’에 따르면 8가지 유형 중 언어폭력이 36.7%로 가장 높다는 결과가 있다. 이에 따라 우리나라는 사이버 언어폭력을 예방하기 위해 비속어 판별 연구가 활발히 진행하여 인터넷상의 비속어를 차단하고 있으나 인터넷 사용자들은 이를 피하기 위해 비속어의 중성(nucleus)을 바꿔 사용하거나 신조어와 같은 맥락으로 새롭게 비속어를 만들어서 사용하고 있다.

지금까지 진행된 비속어 판별 연구로는 판별하고자 하는 단어를 자음 모음 단위로 나눈 후 편집거리 알고리즘(Edit Distance Algorithm)을 이용하여 비속어를 판별하는 연구가 있고, 판별하고자 하는 단어를 이미지로 전처리한 후 딥러닝(Deep Learning) 알고리즘인 합성곱신경망(Convoultional Neural Network, CNN)을 이용하여 판별하고자 하는 단어와 비속어의 유사도를 계산하여 유사도가 높으면 비속어로 판별하는 연구이다. 이러한 연구들은 인터넷 사용자가 비속어를 피해가기 위해 단어사이에 숫자나 특수문자를 넣은경우에는 비속어를 판별 할 수 있으나 문맥은 전혀 파악하지 못하여 “시발점”과 같은 단어는 실제로 비속어는 아니지만 ‘시발’이라는 비속어가 포함되어 있어서 비속어라고 판별하는 경향이 있다.

따라서, 본 논문에서는 인터넷 사용자가 비속어를 피하기위해 비속어 단어의 중성(nucleus)을 바꿔 사용하는 경우, 비속어를 새롭게 만들어 사용하는 경우, 비속어 단어가 포함되어 있으나 문장의 흐름상 비속어가 아닌 경우에도 비속어를 판별하기 위해 단어의 의미와 형태적인 정보를 학습시켜 임베딩(Embedding) 할 수 있는 FastText와 문맥의 흐름을 학습 할 수 있는 순환신경망(Recurrent Neural Network, RNN) LSTM(Long Short-Term Memory Network)을 사용하여 비속어를 판별하는 방법을 제안하고자 한다.|As the number of Internet users is rapidly increasing, cybercrime is also on the rise. Cybercrime threatens the lives of the victims and sometimes leads the victims to commit suicide. As a result, the government puts a lot of effort into preventing cybercrime. Cybercrime is divided into eight types: cyber verbal abuse, cyber defamation, cyberstalking, cyber sexual violence, personal information leakage, cyberbullying, cyber extortion, and cyber coercion. According to Korea Communications Commission's "2019 Cyber Violence Survey Results," the proportion of cyber verbal abuse is the highest among the eight types at 36.7 percent of all cybercrimes. As a result, Korea is actively conducting research on discriminating swear word to prevent cyber verbal abuse by blocking swear word on the Internet. However, internet users are still using swear word by changing the “nucleus” of the words or creating new swear word like a new word.
Recent studies on discriminating swear word have been conducted by using an Edit Distance Algorithm after dividing the words into consonants and vowels and using a CNN, a DL algorithm, after pre-processing the word into images. These studies have shown that they are able to identify swear word even if Internet users deliberately alter swear word by inserting emoticons and special characters. Unfortunately, they have the problem that they also identify standard words such as /sibaljeom/ ‘start point’ and /saekkibalkalak/ ‘little toe’ as swear word because they don’t understand the context at all.
Therefore, in this paper, we would like to discriminate swear word in three cases: 1) when the Internet user alters the 'nucleus' of the swear word to avoid blocking. 2) when the Internet user creates new swear word. 3) when the word is a standard word and not swear word in the context. To improve the accuracy of swear word discrimination, we would like to propose a method that implements a FastText model that uses Word Embedding by learning the meaning and form of a word, and a Long Short-Term Memory Network (LSTM) model that can learn the flow of context.
Alternative Title
Swear Word Detection Method Using The Word Embedding and LSTM
Alternative Author(s)
Yi Moung Ho
Department
산업기술창업대학원 소프트웨어융합공학과
Advisor
신주현
Awarded Date
2020-08
Table Of Contents
ABSTRACT

Ⅰ. 서론 1
A. 연구 배경 및 목적 1
B. 연구 내용 및 구성 3

Ⅱ. 관련 연구 4
A. 단어 임베딩 4
1. 자연어 처리 4
2. 임베딩 알고리즘 6
B. 비속어 판별 9

Ⅲ. 단어 임베딩과 LSTM을 활용한 비속어 판별 12
A. 시스템 구성도 12
B. 전처리 및 단어 임베딩 14
1. 텍스트 전처리 과정 15
2. FastText 모델을 활용한 단어 임베딩 24
C. LSTM을 활용한 비속어 판별 27
1. LSTM 학습을 위한 데이터 셋 구성 27
2. LSTM 학습 방법 30
3. 비속어 판별 31

Ⅳ. 실험 및 결과 36
A. 데이터 수집 36
B. 데이터 셋 39
C. 실험 평가 및 분석 40
1. 실험 평가 방법 40
2. 실험 결과 분석 42

Ⅴ. 결론 및 향후연구 47

참고문헌 48
Degree
Master
Publisher
조선대학교 산업기술창업대학원
Citation
이명호. (2020). 단어 임베딩과 LSTM을 활용한 비속어 판별 방법.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/16586
http://chosun.dcollection.net/common/orgView/200000320628
Appears in Collections:
Engineering > 3. Theses(Master)
Authorize & License
  • AuthorizeOpen
  • Embargo2020-08-28
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.