CHOSUN

Self-Attention GAN을 이용한 문장으로부터 이미지 생성 연구

Metadata Downloads
Author(s)
노주현
Issued Date
2020
Abstract
A. 연구의 배경 및 목적
컴퓨터가 인간의 언어, 즉 자연어를 처리하는 일은 매우 어려운 일이다. 인간의 언어는 컴퓨터가 이해하기에 너무 복잡했고 동시에 인간의 언어를 처리하는 방법들에 한계가 너무 명확했다. 그러나 기술의 발전과 연구자들의 노력으로 기계 번역의 경우 상당한 정확도를 보여주며 컴퓨터가 자연어를 처리할 수 있다는 가능성을 보여주었다. 초창기 기계번역은 규칙 기반 번역으로 개발 과정에서 언어학자가 중심이 되어 구축되었다. 알고리즘의 기초가 문법에 초점이 맞춰져있었기 때문에 정확도가 상당했으나 개발 비용과 시간이 많이 들기 때문에 전문 기업들이나 할 수 있는 방법이었다. 오랫동안 통계적 방식을 이용한 방법을 사용해왔었다. 통계 기반 기술은 빅데이터를 이용해 통계적으로 규칙을 생성해 번역하는 방법이다. 그러나 통계적 방식은 최근 딥러닝을 이용한 번역을 사용하기 시작하였다. 그러나 아직까지 번역의 질이 많이 떨어지고 문장을 정확하게 번역하는 기계번역은 나타나지 못하고 있다. 특히 문장에서 문맥을 잘 이해하지 못하는 점이 가장 큰 문제로 나타났다. 최근 이러한 문제점을 해결하고자 하는 여러 가지 연구가 진행 되었고 RNN을 이용한 기계번역이 성과를 나타냈다. 그러나 여전히 문맥적 의미를 담아내지 못했고 RNN의 문제점(기울기 소실)으로 인하여 정확한 번역을 기대하기 힘들었다. 하지만 Attention Mechanism의 등장으로 기계번역에서의 개선을 이루어 냈으며 길지 않은 문장에서는 큰 성능의 발전을 보여주게 된다.
한편 이미지 부분에 있어서 딥러닝은 최근에는 엄청난 성과를 보여주고 있다. 이미지 인식, 분류 등은 이미 인간을 뛰어 넘었으며 최근에는 유명 화가의 화풍을 재현하여 그림을 그려내는 등의 성과를 보여주고 있다.
이러한 딥러닝 모델들의 발전으로 본 연구에서는 텍스트를 이용하여 그 텍스트의 의미를 파악하여 이에 맞는 이미지를 만드는 모델인 Self-Attention Genrative Text to Image Adversarial Network를 제안한다. 이 모델은 이미지를 설명하는 텍스트를 입력으로 그 설명에 맞는 이미지를 생성해내는 모델이다. Attention Mechanism을 적용하여 텍스트를 임베딩하고 그 결과를 이용하여 이미지를 생성한다. 이때 이미지를 생성하기 위해 Generative Adversarial Network를 이용하여 이미지를 생성해 내며 추출해낸 문장벡터는 기존의 방법인 LSTM(long short term memory)이 아닌 Self-Attention을 적용시킨 LSTM을 이용한다. 때문에 문맥의 의미를 잘 파악할 수 있을 것으로 기대할 수 있다. 문맥의 의미가 잘 파악 된다면 이미지 생성에 있어 각 단어가 더 잘 반영된 결과가 생성되리라 기대할 수 있다.


B. 연구내용

본 논문은 일반적인 워드임베딩이 아닌 문맥의 의미를 파악할 수 있는 Attention-Mechanism을 이용하여 추출된 feature를 이용하여 이미지를 생성하는 연구이다. Attention Mechanism을 적용하기 위해서 벡터화된 단어로 이루어진 문장을 Bidirectional LSTM을 이용하여 입력받고 결과에 Self-Attention을 적용하여 문장에서 핵심적인 단어들을 찾아내 LSTM의 결과에 다시 적용시킨다. 이렇게 만들어진 결과는 문장의 의미를 파악한 문맥을 가진 벡터라고 할 수 있다. 임베딩 Layer를 통과하여 만들어진 문장행렬을 이용하여 GAN은 이미지를 생성해낸다. 이미지를 생성해 내는 Generator는 문장행렬을 Upsampling하는 과정을 거쳐 의 해상도를 가진 이미지를 생성해 낸다. Discriminator는 이미지를 잘 생성해 낼 수 있도록 계속해서 Generator의 결과물을 감시하고 평가하며 Generator가 이미지를 잘 생성해 낼 수 있도록 피드백하게 된다. 이렇게 만들어진 결과는 Inception score를 이용하여 평가하였다.|It is very difficult for computers to understand human language. For machine translation, we have long used statistical methods and recently started using deep learning. However, the translation has low quality and high quality machine translate model hasn’t appear. In particular, the biggest problem was the lack of understanding the context in the sentence. A number of studies have recently been conducted to solve these problems and machine translation using RNN has shown results. However, it was still not able to capture contextual meaning and it was difficult to expect an accurate translation due to the problem of RNN. However, with the advent of the Attachment Mechanism, improvements in machine translation have been made, and not long sentences show great performance improvements.
Deep learning, meanwhile, has shown tremendous results in recent years in the image field. Image recognition and classification have already surpassed human beings and have recently shown achievements such as reproducing and painting styles of famous artists.
With the development of these deep learning models, this study proposes self-Attention GAN, a model that uses text to grasp the meaning of the text and make images accordingly.
Alternative Title
Text to image by Self-Attention Generative Adversarial Network
Alternative Author(s)
No Ju-Hyeon
Department
일반대학원 컴퓨터공학과
Advisor
김판구
Awarded Date
2020-02
Table Of Contents
Ⅰ. 서 론
A. 연구의 배경 및 목적
B. 연구 내용
Ⅱ. 관련연구
A. seq2seq
B. Bidirectional LSTM 5 C. Transformer
D. Scaled dot-product attention
E. Generative adversarial network

Ⅲ. Text를 이용한 이미지 생성
A. Embedding
B. Generator
C. Discriminator
D. Loss
E. Training

Ⅳ. 실험 및 결과 분석
A. 실험 환경
B. 실험 결과 분석

Ⅴ. 결 론
Degree
Master
Publisher
조선대학교 대학원
Citation
노주현. (2020). Self-Attention GAN을 이용한 문장으로부터 이미지 생성 연구.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/14066
http://chosun.dcollection.net/common/orgView/200000279330
Appears in Collections:
General Graduate School > 3. Theses(Master)
Authorize & License
  • AuthorizeOpen
  • Embargo2020-02-26
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.