하둡기반 대량의 스몰파일 처리성능 향상을 위한 효율적인 데이터 처리방법

Metadata Downloads
Issued Date
With the proliferation of smartphones and expansion of social networking services (SNSs), various types of data are now being generated and the big data era has arrived. Due to various types and sizes of data, and the short period of big data generation, existing systems are unable to process big data. Thus, an appropriate new system to process big data is required. Hadoop is a representative technology that stores and processes big data. It is a distributed parallel processing system consisting of the Hadoop Distributed File System (HDFS) that stores big data and MapReduce that processes and analyzes big data. Hadoop is optimized to store data in files with relatively large size and thus suffers from disadvantages of memory insufficiency of name nodes and increased scheduling and processing time for a large number of small files.

This study proposes a performance improvement method for MapReduce processing in which the CombineFileInputFormat method and the reuse method of the Java Virtual Machine (JVM) are employed together. Existing methods create a mapper for every small file. Unlike these methods, the proposed method reduces the number of created mappers by processing large number of files that are combined by a single split using CombineFileInputFormat. It also improves the MapReduce processing performance by reducing the creation time of JVM by reusing a single JVM for a large number of mappers rather than creating a JVM for every mapper.
Alternative Title
An Effective Data Process Method for Improving the Processing Performance of Massively Small Files on Hadoop Based
Alternative Author(s)
Choi, Chul Woong
조선대학교 산업기술융합대학원
산업기술융합대학원 소프트웨어융합공학과
Awarded Date
2016. 2
Table Of Contents

Ⅰ. 서론 1
A. 연구 배경 및 목적 1
B. 연구 내용 및 구성 2

Ⅱ. 관련 연구 3
A. 하둡(Hadoop) 3
1. HDFS(Hadoop Distributed File System) 4
a. 네임노드(NameNode) 5
b. 보조 네임노드(SecondaryNameNode) 6
c. 데이터노드(DataNode) 7
2. MapReduce 9
a. 잡트래커(JobTracker) 11
b. 태스크트래커(TaskTracker) 11
3. JVM 재사용 12
4. CombineFileInputFormat 14
B. 하둡에서 스몰파일이 갖는 문제점 15
1. 하둡 스몰파일 15
2. 네임노드 메모리 부족 문제 15
3. 맵리듀스 스케줄링 및 처리시간 증가 문제 16
C. 하둡 스몰파일문제 관련 기존 연구 17
1. 파일병합 방법 17
a. 하둡 아카이브(Hadoop Archive) 17
2. 분산 캐시 방법 18
3. 기타 방법들 18

Ⅲ. 대량의 스몰파일 처리성능 향상 방법 20
A. 시스템 구성도 20
B. 대량의 스몰파일 처리성능 향상 방법 22
1. CombineFileInputFormat 적용 방법 22
2. JVM 재사용 방법 24
3. 제안한 방법 처리과정 25

Ⅳ. 실험 및 분석 27
A. 실험환경 27
B. 실험데이터세트 30
C. 실험방법 및 결과분석 32
1. 실험방법 32
2. 실험결과분석 33
a. CombineFileInputFormat 적용 방법 33
b. JVM 재사용 방법 37
c. 기존 MapReduce 처리 40
d. 제안한 방법 42
3. 처리성능 비교 및 평가 47

Ⅴ. 결론 50

참고문헌 51
조선대학교 산업기술융합대학원
최철웅. (2016). 하둡기반 대량의 스몰파일 처리성능 향상을 위한 효율적인 데이터 처리방법
Appears in Collections:
Engineering > Theses(Master)(산업기술창업대학원)
Authorize & License
  • AuthorizeOpen
Files in This Item:

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.