CHOSUN

하둡기반 대량의 스몰파일 처리성능 향상을 위한 효율적인 데이터 처리방법

Metadata Downloads
Author(s)
최철웅
Issued Date
2016
Abstract
With the proliferation of smartphones and expansion of social networking services (SNSs), various types of data are now being generated and the big data era has arrived. Due to various types and sizes of data, and the short period of big data generation, existing systems are unable to process big data. Thus, an appropriate new system to process big data is required. Hadoop is a representative technology that stores and processes big data. It is a distributed parallel processing system consisting of the Hadoop Distributed File System (HDFS) that stores big data and MapReduce that processes and analyzes big data. Hadoop is optimized to store data in files with relatively large size and thus suffers from disadvantages of memory insufficiency of name nodes and increased scheduling and processing time for a large number of small files.

This study proposes a performance improvement method for MapReduce processing in which the CombineFileInputFormat method and the reuse method of the Java Virtual Machine (JVM) are employed together. Existing methods create a mapper for every small file. Unlike these methods, the proposed method reduces the number of created mappers by processing large number of files that are combined by a single split using CombineFileInputFormat. It also improves the MapReduce processing performance by reducing the creation time of JVM by reusing a single JVM for a large number of mappers rather than creating a JVM for every mapper.
Alternative Title
An Effective Data Process Method for Improving the Processing Performance of Massively Small Files on Hadoop Based
Alternative Author(s)
Choi, Chul Woong
Affiliation
조선대학교 산업기술융합대학원
Department
산업기술융합대학원 소프트웨어융합공학과
Advisor
김판구
Awarded Date
2016-02
Table Of Contents
ABSTRACT

Ⅰ. 서론 1
A. 연구 배경 및 목적 1
B. 연구 내용 및 구성 2

Ⅱ. 관련 연구 3
A. 하둡(Hadoop) 3
1. HDFS(Hadoop Distributed File System) 4
a. 네임노드(NameNode) 5
b. 보조 네임노드(SecondaryNameNode) 6
c. 데이터노드(DataNode) 7
2. MapReduce 9
a. 잡트래커(JobTracker) 11
b. 태스크트래커(TaskTracker) 11
3. JVM 재사용 12
4. CombineFileInputFormat 14
B. 하둡에서 스몰파일이 갖는 문제점 15
1. 하둡 스몰파일 15
2. 네임노드 메모리 부족 문제 15
3. 맵리듀스 스케줄링 및 처리시간 증가 문제 16
C. 하둡 스몰파일문제 관련 기존 연구 17
1. 파일병합 방법 17
a. 하둡 아카이브(Hadoop Archive) 17
2. 분산 캐시 방법 18
3. 기타 방법들 18

Ⅲ. 대량의 스몰파일 처리성능 향상 방법 20
A. 시스템 구성도 20
B. 대량의 스몰파일 처리성능 향상 방법 22
1. CombineFileInputFormat 적용 방법 22
2. JVM 재사용 방법 24
3. 제안한 방법 처리과정 25

Ⅳ. 실험 및 분석 27
A. 실험환경 27
B. 실험데이터세트 30
C. 실험방법 및 결과분석 32
1. 실험방법 32
2. 실험결과분석 33
a. CombineFileInputFormat 적용 방법 33
b. JVM 재사용 방법 37
c. 기존 MapReduce 처리 40
d. 제안한 방법 42
3. 처리성능 비교 및 평가 47

Ⅴ. 결론 50

참고문헌 51
Degree
Master
Publisher
조선대학교 산업기술융합대학원
Citation
최철웅. (2016). 하둡기반 대량의 스몰파일 처리성능 향상을 위한 효율적인 데이터 처리방법.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/16499
http://chosun.dcollection.net/common/orgView/200000265550
Appears in Collections:
Engineering > 3. Theses(Master)
Authorize & License
  • AuthorizeOpen
  • Embargo2016-02-25
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.