CHOSUN

Energy-efficient Online Arithmetic in Domain-Specific Accelerators for Deep Learning Applications

Metadata Downloads
Author(s)
우스만 무함마드
Issued Date
2022
Abstract
딥 러닝 아키텍처의 대부분의 계산처리는 컨볼루션 연산으로, 궁극적으로 대량의 곱의합 연산 을 수행한다. 딥 러닝 추론 가속기에서 대량의 곱의합 연산을 수행하면서, 짧은 응답시간을 달성하기 위하여 초고속처리에 필요한 하드웨어 자원을 효율적으로 사용하는 문제는 중요한 문제이다.
본 논문은 딥 러닝 가속기를 위한 에너지 효율적인 온라인 연산기 구조 설계를 제시한다. 온 라인 연산으로 알려진 LR (Left 왼쪽에서 Right 오른쪽으로) 연산기법은 기존의 연산처리와 달리, 입력데이터가 LR 디지트 직렬(Digit-Serial) 방식으로, 즉 왼쪽(최상위 숫자)부터 오른쪽 (최하위 숫자)으로 제공되고, 출력도 디지트 직렬방식으로 최상위 숫자에서 최하위 숫자로 생 성된다. 온라인 연산은 최상위 숫자부터 출력하기 때문에, 현재 연산이 완료되지 않아도, 연속된 다음 연산을 시작할 수 있다. 즉, 연산 데이터 종속성에 관계 없이, 연속된 다음 연산을 시작할 수 있어서, Digit-level 파이프라이닝 이 가능하다. 연속 작업의 조기 실행이 가능하 여, 작업 처리량도 늘어나고, latency (처리지연시간)을 줄일 수 있어, response time (응답 시간)이 빨라진다. 온라인 연산은, 원하는 정밀도에 도달하면 실행을 중지할 수 있어서, 필요 한 만큼의 연산을 수행할 수 있는 고유한 속성이 있다. 온라인 연산 알고리즘은 입력 데이터 를 디지트 직렬 방식으로 받아서 출력 디지트를 결정하는데, 주어진 정밀도에 따라 결정되지 만, 온라인 연산 알고리즘은 기존의 연산알고리즘과 달리, 출력 디지트를 결정하기 위하여, 전체 디지트를 다 필요로 하지 않는다. 연산 결과값의 precision(정밀도)보다 작은 작업 정밀도(working precision)만으로 동일한 결과 값을 얻을 수 있으므로, 회로의 크기를 줄일 수 있고, 모듈의 신호 활동을 최소화하여 에너지효율을 높일 수 있다.
본 논문에서는 온라인 연산기의 특성을 살려, 에너지 효율적인 파이프라인 온라인 곱셈기, 파 이프라인 온라인 가산기 구조 그리고 온라인 곱의합 연산기 구조를 제안하고 구현하였다. 파 이프라인 온라인 곱의합 연산기의 사이클 처리시간은 입력 데이터의 정밀도 (operand width) 에 따라 변화되지 않고, 동일하며, 기존의 곱의합 연산기 처리시간에 비하여 빠르기 때문에, 딥러닝 가속기에 적용할 경우의 그 효용성이 기대된다. 다양한 정밀도의 온라인 곱셈기와 가산기를 Verilog로 구현하고, ModelSim을 사용하여 기능적으로 검증한 후에, Synopsys Design Compiler 를 사용하여 45nm 기술로 합성하였다. FPGA로 구현한 결과에서도 면적과 전력 모두에서 상당한 양의 절감이 가능함을 보였다.|n deep learning architectures, convolution, which is essentially sum-of-products, is a dominant operation and accounts for majority of computation. It is of great interest to minimize the resource consumption of convolution operation and reduce its latency to have a short response time of the network during
inference.
This thesis is focused on the utilization of online arithmetic for the computation of inner products in the deep learning architectures. Online or left to right (LR) arithmetic executes in digit-serial manner in which inputs are provided and output is produced from most to least significant digit. It allows digit-level pipelining and early execution of successive operation regardless of data dependency which increases the overall throughput and decreases the latency.
It has an inherent property to execute as a variable precision arithmetic where the execution can be stopped upon reaching the desired precision. Furthermore, for a given precision, the total number of digit slices required by the online algorithms are less than that required by the parallel implementations. Therefore,
the working precision can be reduced to obtain a full precision result, thus minimizing the area occupancy, interconnects and signal activities. These properties of online arithmetic are explored to present a low-power
pipelined online multiplier which along with the pipelined online adder is utilized to perform sum-of-products hardware unit. The cycle time of the pipelined online units is independent of data precision and is smaller compared to the conventional SoP designs.
The implementation of various precision multipliers and adders has been done using Verilog descriptions and functionally verified using ModelSim. The synthesis have been performed Synopsys Design Compiler on 45nm technology. Furthermore, the designs have been implemented on FPGA to observe the sequential and combinational logic utilization which show significant amount of savings in both area and power.
Alternative Title
딥 러닝 가속기를 위한 에너지 효율적인 온라인 연산기 구조 설계
Alternative Author(s)
Muhammad Usman
Affiliation
조선대학교 일반대학원
Department
일반대학원 컴퓨터공학과
Advisor
이정아
Awarded Date
2022-02
Table Of Contents
1 Introduction 1
1.1 Motivation 1
1.2 Literature Review 2
1.3 Research Approach 4
1.4 Contributions 4
1.5 Organization of Thesis 5

2 Overview of Online Arithmetic 7
2.1 Introduction 7
2.2 General Properties 8
2.3 Number System 9
2.4 Implementation Model 10
2.5 Method for Developing Online Algorithms 12
2.5.1 Residual and its Recurrence 13
2.5.2 Selection Function with Selection Constants 14
2.6 Online Multiplier 14
2.7 Radix-2 Online Multiplier 16
2.7.1 Recurrence 16
2.7.2 Selection Function 16
2.7.3 Algorithm 17
2.7.4 Block Diagram 19
2.8 Radix-2 Online Adder 20
2.9 Chapter Summary 20

3 Online Sum-of-Product 21
3.1 Introduction 21
3.2 Pipelined Online Multiplier 21
3.2.1 Working Principle of Pipelined Multiplier 23
3.2.2 Maximum Working Precision Reduction 24
3.2.3 Working Precision Reduction Strategy 24
3.2.4 Pipelining 25
3.2.5 Algorithm 28
3.2.6 Block Diagram 28
3.2.7 Implementation Details 31
3.2.7.1 Initialization 31
3.2.7.2 On-the-Fly Conversion 31
3.2.7.3 Selector 32
3.2.7.4 Adder 32
3.2.7.5 Residual Calculation 34
3.2.7.6 Recurrence 35
3.2.7.7 V Block 36
3.2.7.8 SELM Block 37
3.2.7.9 M Block 37
3.2.7.10 Adder 37
3.2.7.11 Residual Calculation 37
3.2.7.12 Last δ cycles 38
3.2.8 Synthesis Results and Comparison 39
3.2.8.1 FPGA Implementation 41
3.2.8.2 Synthesis using Yosys, ABC and SIS 41
3.2.8.3 Synthesis using Design Compiler 43
3.3 Pipelined Online Adder 45
3.3.1 Adder Tree 46
3.3.2 Synthesis Results 47
3.4 Pipelined Online Sum-of-Product 48
3.4.1 Synthesis Results 48
3.5 Chapter Summary 49

4 Convolutional Neural Network Acceleration 51
4.1 Design Overview of [40] 53
4.2 Attainable Performance [40] 55
4.3 Design Overview of ESSA [17] 56
4.4 Attainable Performance ESSA [17] 58
4.5 Attainable Performance using Pipelined Online SoP 59
4.6 Chapter Summary 62

5 Summary and Conclusion 64

PUBLICATIONS 66

BIBLIOGRAPHY 67
Degree
Doctor
Publisher
조선대학교 대학원
Citation
우스만 무함마드. (2022). Energy-efficient Online Arithmetic in Domain-Specific Accelerators for Deep Learning Applications.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/17173
http://chosun.dcollection.net/common/orgView/200000606893
Appears in Collections:
General Graduate School > 4. Theses(Ph.D)
Authorize & License
  • AuthorizeOpen
  • Embargo2022-02-25
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.