Strategies to deal with Mislabeled Data
- Author(s)
- 무하마드 암마르 말릭
- Issued Date
- 2017
- Keyword
- label noise, mislabeled data, support vector machine, majority filter
- Abstract
- 머신러닝을 위한 분류기 학습 데이터에서 각 데이터의 클래스가 항상 정확할 수 없기 때문에 기계학습데이터 레이블링에 오류가 포함될 가능성이 높다. 예를 들어 의학 자동 진단 분야에 서, 질병의 분류 및 진단에 대한 오류가 포함될 가능성이 항상 존재한다. 기계학습 알고리즘 은 입력 데이터의 클래스 레이블링 정확도에 많은 영향을 받기 때문에, 분류기의 성능은 잠재 적인 오류들이 포함된 데이터들에 의해 결정이 된다. 본 논문에서는 기계학습 데이터에 오류 가 존재할 때, 이 오류를 인지하고, 제거하는 알고리즘을 제시한다. 이러한 오류 데이터들의 대부분은 기계학습에서 사용되는 분류기에 의해 명확하게 구분되지 않는 구간에 대부분 존재 한다는 것에 착안하여, 기계학습에 가장 많이 사용되는 SVM 분류기를 기준으로 학습데이터 의 유클리안 위치를 이용하여 오류가 포함되었을 가능성이 높은 데이터를 인지하는 방법과, 이와 반대로 SVM분류기에서 멀리 떨어져, 오류가 발생하지 않았을 가능성이 높은 데이터를 활용하여 오류가 포함되었을 가능성이 높은 데이터를 다시 레이블링하는 두가지 종류의 알고 리즘을 제시하였다. 제안된 방법들 여러 가지 종류의 데이터를 이용하여 효율적으로 레이블 링 에러를 제거할 수 있다는 것을 검증하였다.|Performance of machine learning classifiers is heavily dependent on labeling quality of datasets. Generally, human supervision is required for the labeling of instances in datasets. This labeling can be erroneous, and detecting such erroneous examples from the dataset is extremely important. In this work we discuss some of the machine learning approaches to deal with the problem of label noise in datasets. The experiments are conducted on some of the widely used datasets in the machine learning community. Firstly, a clustering based technique for relabeling of instances in datasets is studied. Secondly, a similarity based technique that utilizes the concept of Euclidean distance for cleaning of label noise. The instances having similar scores with positive and negative classes are selected for expert review. Lastly, an improved majority filter is proposed. Our experiments show that the improved majority filter is faster as compared to the conventional majority filter. We also compare the performance of proposed method with majority and consensus filter in terms of precision, recall and F_1 Score.
- Alternative Title
- 기계학습의 정확도 향상을 위한 레이블 노이즈 제거 알고리즘
- Alternative Author(s)
- Malik Muhammad Ammar
- Department
- 일반대학원 컴퓨터공학과
- Advisor
- 강문수
- Awarded Date
- 2018-02
- Table Of Contents
- ABSTRACT v
한 글 요 약 vi
I. INTRODUCTION 1
A. Motivation 1
B. Contributions 1
C. Thesis Layout 2
II. RELATED WORKS 3
A. Algorithmic Level Approaches 3
B. Data Level Approaches 4
III. CLUSTERING BASED LABEL NOISE CLEANING 6
A. Introduction 6
B. K-means Clustering 6
C. Mixture Models 7
D. Hierarchical Clustering 8
E. Methodology 8
F. Datasets 10
G. Experiments and Results 11
H. Conclusion 14
IV. SIMILARITY BASED CLEANING OF LABEL NOISE 15
A. Introduction 15
B. Support vector machines (SVMs) for label noise cleaning 16
C. Proposed Idea 19
D. Datasets 20
E. Experimental Setup 21
F. Data Preprocessing 22
1. Experiment 1 23
2. Experiment 2 24
3. Experiment 3 25
H. Conclusion 26
V. IMPROVED LABEL NOISE FILTER 28
A. Introduction 28
B. Precision and Recall 29
C. Majority Filter 31
D. Consensus Filter 32
E. Potential Problems with MF and CF 33
F. Proposed Approach 35
G. Datasets and Experimental Setup 38
H. Results 38
I. Conclusion 40
VI. CONCLUSIONS 42
BIBLIOGRAPHY 44
ACKNOWLEDGEMENTS 46
- Degree
- Master
- Publisher
- 조선대학교 대학원
- Citation
- 무하마드 암마르 말릭. (2017). Strategies to deal with Mislabeled Data.
- Type
- Dissertation
- URI
- https://oak.chosun.ac.kr/handle/2020.oak/13393
http://chosun.dcollection.net/common/orgView/200000266523
-
Appears in Collections:
- General Graduate School > 3. Theses(Master)
- Authorize & License
-
- AuthorizeOpen
- Embargo2018-02-09
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.