CHOSUN

속도와 노이즈 증강 데이터를 통한 음성 감정 인식 성능 향상

Metadata Downloads
Author(s)
안진성
Issued Date
2024
Keyword
augmentation, Feature Vector, MFCC, Mel-spectrogram
Abstract
Speech Emotion Recognition Performance Improvement with Speed and Noise Augmentation Data Ahn, JinSung Advisor : Prof. Shin, JuHyun Ph.D. Department of Software Convergence Engineering Graduate School of Industrial Technology and Entrepreneurship, Chosun University With the recent development of AI in the field of voice emotion recognition research is expanding to utilize the characteristics of emotions revealed in human voices through tone of voice or non-verbal elements. However, the voice data sets currently distributed are limited, and there were practical difficulties in collecting the desired data sets directly. Therefore, this study proposed an experiment to improve voice emotion recognition by applying speed and noise enhancement methods and MFCC and Mel-Spectrogram feature vector extraction techniques based on a small amount of data sets. The study used CREMA datasets classified into a total of five emotional classes: 'anger', 'fear', 'happiness', 'sad', and 'neutral'. Data was augmented by adjusting speed and noise expansion, and vectors were extracted using two feature vector extraction techniques, MFCC and Mel-Spectrogram. As a result of the experiment, data augmentation was applied rather than the accuracy of learning only the original data, and the accuracy of learning resulted in a performance improvement of about 3% or more.
Alternative Title
Speech Emotion Recognition Performance Improvement with Speed and Noise Augmentation Data
Alternative Author(s)
AHNJINSUNG
Affiliation
조선대학교 산업기술창업대학원
Department
산업기술창업대학원 소프트웨어융합공학과
Advisor
신주현
Awarded Date
2024-02
Table Of Contents
Ⅰ. 서론 1
A. 연구 배경 및 목적 1
B. 연구 내용 및 구성 3
Ⅱ. 관련 연구 4
A. 음성 데이터 감정 인식 4
1. 멀티 모달 감정 인식 4
2. 학습 모델 기반 감정 인식 5
B. 음성 데이터 증강 기법 7
1. 속도 조정 7
2. 노이즈 추가 · 8
C. 특징 벡터 추출 방법 10
1. MFCC 10
2. Mel-Spectrogram 13
Ⅲ. 속도와 노이즈 증강 데이터를 통한 음성 감
정 인식 성능 향상 15
A. 연구 구성도 · 15
B. 음성 데이터 증강 17
1. Numpy 기반 속도 증강 17
2. Audiosegment 기반 노이즈 증강 20
3. 음성 데이터 병합 22
C. 음성 특징 벡터 추출 24
1. 데이터 전처리 · 24
2. 특징 벡터 추출 24
D. 음성 데이터 감정 인식 모델 32
1. 모델 학습을 위한 데이터 처리 33
2. SVM 기반 감정 인식 방법 36
Ⅳ. 실험 및 결과 · 38
A. 데이터 셋 38
1. 원본 데이터 셋 38
2. 증강 데이터 셋 39
B. 실험 및 분석 43
1. 실험 평가 방법 43
2. 실험 결과 분석 44
Ⅴ. 결론 및 향후 연구 53
참고문헌 54
Degree
Master
Publisher
조선대학교 산업기술창업대학원
Citation
안진성. (2024). 속도와 노이즈 증강 데이터를 통한 음성 감정 인식 성능 향상.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/17912
http://chosun.dcollection.net/common/orgView/200000730967
Appears in Collections:
Engineering > 3. Theses(Master)
Authorize & License
  • AuthorizeOpen
  • Embargo2024-02-23
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.