속도와 노이즈 증강 데이터를 통한 음성 감정 인식 성능 향상
- Author(s)
- 안진성
- Issued Date
- 2024
- Keyword
- augmentation, Feature Vector, MFCC, Mel-spectrogram
- Abstract
- Speech Emotion Recognition Performance Improvement with Speed and Noise Augmentation Data Ahn, JinSung Advisor : Prof. Shin, JuHyun Ph.D. Department of Software Convergence Engineering Graduate School of Industrial Technology and Entrepreneurship, Chosun University With the recent development of AI in the field of voice emotion recognition research is expanding to utilize the characteristics of emotions revealed in human voices through tone of voice or non-verbal elements. However, the voice data sets currently distributed are limited, and there were practical difficulties in collecting the desired data sets directly. Therefore, this study proposed an experiment to improve voice emotion recognition by applying speed and noise enhancement methods and MFCC and Mel-Spectrogram feature vector extraction techniques based on a small amount of data sets. The study used CREMA datasets classified into a total of five emotional classes: 'anger', 'fear', 'happiness', 'sad', and 'neutral'. Data was augmented by adjusting speed and noise expansion, and vectors were extracted using two feature vector extraction techniques, MFCC and Mel-Spectrogram. As a result of the experiment, data augmentation was applied rather than the accuracy of learning only the original data, and the accuracy of learning resulted in a performance improvement of about 3% or more.
- Alternative Title
- Speech Emotion Recognition Performance Improvement with Speed and Noise Augmentation Data
- Alternative Author(s)
- AHNJINSUNG
- Affiliation
- 조선대학교 산업기술창업대학원
- Department
- 산업기술창업대학원 소프트웨어융합공학과
- Advisor
- 신주현
- Awarded Date
- 2024-02
- Table Of Contents
- Ⅰ. 서론 1
A. 연구 배경 및 목적 1
B. 연구 내용 및 구성 3
Ⅱ. 관련 연구 4
A. 음성 데이터 감정 인식 4
1. 멀티 모달 감정 인식 4
2. 학습 모델 기반 감정 인식 5
B. 음성 데이터 증강 기법 7
1. 속도 조정 7
2. 노이즈 추가 · 8
C. 특징 벡터 추출 방법 10
1. MFCC 10
2. Mel-Spectrogram 13
Ⅲ. 속도와 노이즈 증강 데이터를 통한 음성 감
정 인식 성능 향상 15
A. 연구 구성도 · 15
B. 음성 데이터 증강 17
1. Numpy 기반 속도 증강 17
2. Audiosegment 기반 노이즈 증강 20
3. 음성 데이터 병합 22
C. 음성 특징 벡터 추출 24
1. 데이터 전처리 · 24
2. 특징 벡터 추출 24
D. 음성 데이터 감정 인식 모델 32
1. 모델 학습을 위한 데이터 처리 33
2. SVM 기반 감정 인식 방법 36
Ⅳ. 실험 및 결과 · 38
A. 데이터 셋 38
1. 원본 데이터 셋 38
2. 증강 데이터 셋 39
B. 실험 및 분석 43
1. 실험 평가 방법 43
2. 실험 결과 분석 44
Ⅴ. 결론 및 향후 연구 53
참고문헌 54
- Degree
- Master
- Publisher
- 조선대학교 산업기술창업대학원
- Citation
- 안진성. (2024). 속도와 노이즈 증강 데이터를 통한 음성 감정 인식 성능 향상.
- Type
- Dissertation
- URI
- https://oak.chosun.ac.kr/handle/2020.oak/17912
http://chosun.dcollection.net/common/orgView/200000730967
-
Appears in Collections:
- Engineering > 3. Theses(Master)
- Authorize & License
-
- AuthorizeOpen
- Embargo2024-02-23
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.