CHOSUN

텍스트-이미지 임베딩 기반의 영상 콘텐츠 유사도 측정 방법

Metadata Downloads
Author(s)
홍택은
Issued Date
2022
Abstract
Owning smart devices, such as smartphones and tablet PCs has been steadily increasing. Further, increased media-based content viewing during the COVID-19 pandemic period enhanced smart device handling time. Particularly, Over-The-Top video service (OTT) viewing has increased significantly. Several OTT viewing-related analyses are being conducted.

The content recommendation system is the most important element that influences the user satisfaction and continued subscription to an OTT service. Users might exhibit inconvenience due to unclear and noncomprehensive topic or category viewing suggestions. Therefore, gaining and maintaining user trust and satisfaction with the content recommendations is important.

However, most of the content recommendation systems require user and content metadata to provide the content or trending recommendations. Even most studies related to content recommendation systems analyze user and content metadata. Analyzing the video content as the recommendation basis is inadequate.

Therefore, we propose a text-image embedding-based video content similarity assessment method for direct content analysis. General text-image embedding method embeds and combines text and image features for accurate depiction of the embedded class relationships. General text-image embedding is primarily used for image-text retrieval, image captioning, and visual question answering.

However, the content analysis studies that derive class relationship similarities through text-image embedding are insufficient. Therefore, we propose a text-image embedding-based video content recommendation method.

The proposed text-image embedding model consists of text, image, and text-image networks. The individual text and image networks embed text and images, while the text-image network combines the text and image embedding and learns the video content relationships.

The text network embeds the input text and uses a pre-trained model, such as Word2Vec, KoBERT, basic RNN, or LSTM. The image network embeds the input images and employs a pre-trained model, such as ResNet, InceptionV3, and EfficientNet. Experiments were conducted using each text and image embedding models, and the best method was selected. The KoBERT and EfficientNet exhibited the best embedding of the text and images, respectively. Therefore, these methods were used to embed text and image in corresponding networks.

The text-image network combines the embedded text and images and learns the video content similarity. This network consists of a flattened layer, fully-connected layer, L2-normalization, and five modules composed of 1D convolution, 1D max pooling, and dropouts. The content similarity in the proposed text-image network was achieved using an improved triplet ranking loss.
The triplet ranking loss aims to predict the relative distance of the given data by learning from the vectorized text or images. It learns the data similarity (close to) or dissimilarity (far from) to the target, by constituting target-like and target-unlike datasets.
As the existing triplet ranking loss updates when the distance value is positive, negative numbers do not affect the learning. If zero distance occurs frequently, the update may not work well and result in improper learning. As the negative numbers could be significant, they could be included in the learning.

Therefore, we propose an improved triplet ranking loss for training the proposed text-image embedding model. The improved triplet ranking loss employs a nonlinear sigmoid function as the existing method. The equation was modified to enable the triplet ranking loss update with a proper value, even when using the sigmoid function with a negative distance value.

Comparative evaluation was performed with metric learning-based loss functions, using the learning method as in the improved triplet ranking loss method. Contrastive loss, the existing triplet ranking loss, and VSE++ functions were used in the comparative evaluation. K-NN serves the same purpose as metric learning in machine learning. Therefore, it was included in the comparison.

The results showed that training the proposed text-image embedding model with the improved triplet ranking loss method achieved superior performance than the existing methods. Therefore, the text-image embedding structural model and the improved triplet ranking loss model are suitable for measuring the video content similarity and learning, respectively.

The dimension reduction and visualization were examined and genre-based clustering was observed. Therefore, the content recommendations can be user preference genre-based. Therefore, presenting the underlying rationale for the category and topic recommendations, and improving user satisfaction is possible with OTT services.|스마트폰과 태블릿PC와 같은 스마트 기기의 보유율이 꾸준히 증가하고 있으며, 코로나의 여파로 인해 스마트 기기를 이용한 미디어 콘텐츠 이용률과 이용 시간도 크게 증가하고 있다. 특히 동영상제공서비스(OTT)를 이용하는 비율이 크게 증가했으며, 이에 따라 사용자의 OTT 이용과 관련된 다양한 분석이 이뤄지고 있다.

OTT 이용 만족도와 지속 사용 의도에 영향을 주는 요소 중 추천 시스템이 가장 중요하게 작용하며, 추천하는 카테고리 명의 생성 기준과 카테고리 주제가 명확하지 않고 포괄적인 경우 사용자가 느끼는 불편함이 있기 때문에 콘텐츠 추천에 대한 근거를 통해 사용자에게 신뢰감과 이용 만족도를 이끌어 내는 것이 중요하다.

그러나 대부분의 추천 시스템은 사용자의 메타 데이터를 강요하여 추천 서비스를 제공하거나 화제성이 높은 콘텐츠를 추천한다는 문제점이 존재한다. 추천 시스템 관련 연구도 대부분 사용자와 콘텐츠의 메타데이터를 분석하며, 콘텐츠의 내용을 분석하여 그를 기반으로 추천하는 방법은 미비한 실정이다.

따라서 본 논문에서는 콘텐츠를 직접적으로 분석하기 위한 텍스트-이미지 임베딩 기반의 영상 콘텐츠 유사도 측정 방법을 제안한다. 일반적인 텍스트-이미지 임베딩은 텍스트와 이미지의 특징을 임베딩하고 결합하기 위한 방법으로 임베딩 된 클래스 사이의 관계를 잘 표현하는 것을 목표로 하며, 주로 이미지-텍스트 검색, 이미지 캡셔닝, Visual Question Answering(VQA)에 활용한다.

하지만 텍스트-이미지 임베딩을 통해 콘텐츠를 분석하고 클래스 간의 유사 관계를 도출하는 연구는 미비한 실정이다. 따라서 본 논문에서는 텍스트-이미지 임베딩 기반의 영상 콘텐츠 추천 방법에 관해 제안한다.

제안하는 텍스트-이미지 임베딩 모델은 텍스트 네트워크와 이미지 네트워크, 텍스트-이미지 네트워크로 구성된다. 텍스트와 이미지 네트워크는 텍스트와 이미지를 임베딩하고 텍스트-이미지 네트워크는 텍스트와 이미지 임베딩 결과를 결합하고 콘텐츠의 관계를 학습한다.

텍스트 네트워크는 입력으로 들어오는 텍스트를 임베딩하며, 사전학습된 Word2Vec, KoBERT, 기본적인 RNN, LSTM 중 하나를 이용한다. 이미지 네트워크는 입력으로 들어오는 이미지를 임베딩하며, 사전학습 된 ResNet, InceptionV3, EfficientNet 중 하나를 이용한다. 텍스트와 이미지 임베딩 방법은 각각의 방법을 모두 사용하여 실험을 진행하고 그 중 가장 성능이 뛰어난 방법을 선정한다. 그 결과 텍스트와 이미지 임베딩에서 KoBERT와 EfficientNet을 사용하는 것이 가장 뛰어난 성능을 보였으며, 텍스트와 이미지 네트워크에서 이 방법으로 임베딩한다.

텍스트-이미지 네트워크는 임베딩 된 텍스트와 이미지를 결합하고 콘텐츠의 유사함을 학습하기 위한 네트워크로 1D Convolution과 1D MaxPooling, Dropout으로 구성된 5개의 모듈과 Flatten layer, Fully Connected layer, L2-Normailzation으로 구성된다. 제안한 텍스트-이미지 네트워크에서 콘텐츠 간 유사도를 학습하기 위해서 개선된 Triplet Ranking Loss를 제안한다.

Triplet Ranking Loss는 주어진 데이터의 상대적인 거리를 예측하기 위해 벡터화 된 텍스트나 이미지로부터 학습하는 것을 목적으로 한다. 타겟 데이터와 유사한 데이터, 유하사지 않은 데이터로 구성하여 유사한 데이터는 타겟과 가깝도록, 유사하지 않은 데이터는 타겟과 멀도록 학습한다.

기존 Triplet Ranking Loss는 거리 값이 0 이상인 경우만 업데이트 하기 때문에 음수는 학습에 영향을 미치지 않는다. Triplet Ranking Loss 값으로 0이 빈번하게 발생하게 된다면 업데이트가 잘 되지 않고 학습이 정상적으로 되지 않을 수 있다. 그 뿐만 아니라, 음수도 분명히 어떠한 의미를 가지고 있기 때문에 학습에 포함하는 것이 적절하다.

따라서 본 논문에서는 제안한 텍스트-이미지 임베딩 모델의 학습을 위해 개선된 Triplet Ranking Loss를 제안한다. 개선된 Triplet Ranking Loss는 기존의 방법에 비선형 함수인 sigmoid를 이용하였으며, 그를 통해 거리의 값이 음수인 경우에도 적절한 값으로 업데이트 될 수 있게 수식을 변경했다.

개선된 Triplet Ranking Loss와 같은 학습 방법을 가진 Metric Learning 기반의 Loss 함수들과 비교 평가를 수행한다. 비교 평가에 사용한 함수는 Contrastive Loss, 기존의 Triplet Ranking Loss, VSE++이다. 머신러닝에서 Metric Learning과 같은 목적을 갖는 K-NN도 비교 항목에 포함시켰다.

개선된 Triplet Ranking Loss로 제안하는 텍스트-이미지 임베딩 모델을 학습한 결과 기존의 방법들보다 우수한 성능을 보였다. 이로 인해 영상 콘텐츠 유사도 측정을 위한 텍스트-이미지 임베딩 모델의 구조와 이를 학습하기 위한 개선된 Triplet Ranking Loss가 적합함을 보였다.

최종적으로 차원 축소 및 시각화 결과를 살펴보면 장르를 기반으로 군집화가 된 것을 확인할 수 있으며, 이와 같은 결과를 토대로 사용자가 시청한 콘텐츠와 유사한 콘텐츠 장르를 근거로 추천할 수 있을 것으로 보인다. 이에 따라 추천하는 카테고리 명과 주제에 대한 근거를 제시하고 사용자의 서비스 이용 만족도를 개선할 수 있을 것으로 보인다.
Alternative Title
A Method of Video Contents Similarity Measurement based on Text-Image Embedding
Alternative Author(s)
Taekeun Hong
Affiliation
조선대학교 일반대학원
Department
일반대학원 컴퓨터공학과
Advisor
김판구
Awarded Date
2022-02
Table Of Contents
ABSTRACT

제1장 서론 1
제1절 연구 배경 및 목적 1
제2절 연구 방법 및 내용 4

제2장 관련 연구 6
제1절 콘텐츠 추천 관련 기존 연구 6
제2절 텍스트-이미지 임베딩 10
1. 텍스트 임베딩 13
2. 이미지 임베딩 21
제3절 Triplet Ranking Loss 25

제3장 영상 콘텐츠 유사도 측정 방법 28
제1절 제안하는 텍스트-이미지 임베딩 모델 28
1. 텍스트 네트워크 29
2. 이미지 네트워크 33
3. 텍스트-이미지 네트워크 35
제2절 개선된 Triplet Ranking Loss 38

제4장 실험 및 결과 40
제1절 데이터 셋 40
제2절 텍스트-이미지 임베딩 모델의 성능 평가 45
1. 모델 구성을 위한 텍스트와 이미지 임베딩 성능 평가 47
2. 제안한 텍스트-이미지 임베딩 모델의 성능 평가 50
제3절 텍스트-이미지 임베딩 시각화 및 추천 방법 57

제5장 결론 및 제언 59

참고문헌 63
Degree
Doctor
Publisher
조선대학교 대학원
Citation
홍택은. (2022). 텍스트-이미지 임베딩 기반의 영상 콘텐츠 유사도 측정 방법.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/17231
http://chosun.dcollection.net/common/orgView/200000603663
Appears in Collections:
General Graduate School > 4. Theses(Ph.D)
Authorize & License
  • AuthorizeOpen
  • Embargo2022-02-25
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.