A High Speed LT Codec Processor Design Using ASIP Implementation Tools
- Author(s)
- S. M. Shamsul Alam
- Issued Date
- 2013
- Abstract
- 오늘날 루비 변환코드는 분수 부호 영역에서중요한 역할로 사용되고 있다. 이 논문은 응용 특정 명령어 세트프로세서 (ASIP) 디자인 툴을 사용하여 LT 코덱의 구현을 위한 다양한 기술을 알려준다. ASIP 디자인에서 프로세서의 성능을 향상할 수 있는 일반적인 방법은 동시 작동을 보장하기 위한 기능들을 향상하는 것이다. 이러한 이유 때문에, 지난 몇 년간의 연구에 응용 프로그램 특정 도메인에서 프로세서의 작동을 직접하였다. 따라서이 연구 논문에서 LT 코덱과 같은 이러한 응용 프로그램 특정 작업은 서로 다른 프로세서 플랫폼을 사용하여 구현되었다.하드웨어의 성능과 프로세서의 구조에 따라 달라질 뿐만 아니라 입력 응용 프로그램 LT Codec의 구조에 따라 달라진다. 따라서입력 설계 전략, 프로세서 및 컴파일러 아키텍처와같은 최적화는 응용하는 특정 프로세서의성능을 향상시킬 수 있는 매우 유용한 현상이다. 지난 몇 년 동안, 프로세서 아키텍처는RISC 가족의 영역에서 발전되어 왔다. 교육 수준 병렬 처리 (ILP), 우회 기법 및 여러 강좌와 같은 몇 가지 주요 개념은 RISC 프로세서의 운영에 포함되어 있다. 따라서 운송 실행 아키텍처(TTA)는 응용 프로그램 특정 프로세서 디자인에 스타일을 기본으로 한다.
이 논문은 LT 코덱을위한 고속 TTA 프로세서를 설계 할 몇 가지 기술을 분석한다. 이외에도 TTA 아키텍처, LT 인코더와 디코더의 설계 수정이 쉽고 효율적인 코덱 생산을 하기 위해 수정되어야 한다. 따라서이 논문은 복구 목적으로 소프트 디코딩으로 알려진 여러개의 제품 알고리즘을 사용하고, 그리고매우 적은 반복작업으로 AWGN 채널을 통해 인코딩 된 비트 스트림에서 디코딩 된 신호를 생성하였다.
TTA 기반의 병행설계 환경 (TCE) 툴(tool)은 LT코덱을 실행하는 프로세서의 다양한 범주(category)를 개발하기 위해서 사용돼왔다. 게다가, 이 결과를 다른것들의 응답과 비교하기 위해 LT 코덱을 실행하기 위한 Tensilica 와 OpenRISC 툴들을 사용했다. TCE와 마찬가지로, Tensilica 툴에서 프로세서의 성능을 극대화 하기위해 몇몇 환경설정들이 선택(설정)되고 수정되었다. 이러한 활동들을 기반으로, 몇몇 유용한 결과들이 생성되었고 TTA의 LT_CODEC.adf 아키텍쳐가 TCE와 Tensilica 툴의 아키텍쳐와 비교했을때 LT 엔코더와 디코더를 실행함에 있어서 최소의 사이클을 차지함을 보여주었다.이런 프로세서에서 Decoder.adf 나 Decoder_llr.adf 그리고 마지막으로 LT_CODEC.adf라 이름지어진 일반적인 기능 유닛(function unit)들은 TTA 프로세서의 기능을 점진적으로 개선하기 위해서사용되었다. LT_CODEC.adf는 LT코덱을 시뮬레이팅 하는데 오직 4466 사이클과 43ms를 차지 했는데, 이는 Tensilica 툴에 비하면 매우 적다.
그럼에도 불구하고 Tensilica의 시뮬레이션 스피드는 TCE 툴에 비하면 매우 빠르다. 이런 시뮬레이션 결과로부터 100MHz 클럭을 사용하여 초당 거의 100K 사이클을 수행한다고 볼 수 있다. 그러나 Tensilica는 ConnX D2 엔진을 이용하여 초당 1M 사이클을 수행한다. LT 코덱의 디코딩 기술은 반복 방식으로서 수행되었고다른 프로세서 아키텍쳐의 변화 때문에 이런 디코딩 반복 방식은 TCE와 Tensilica 툴을 이용하여 연구되었다. 이런 결과로부터 TCE 툴의 LT_CODEC.adf는 디코더 된 신호를 발생시키기 위해 오직 단일 반복만을 취했다. 그러나 Tensilica의 XRC_D2MR 환경은 성공적인 디코딩을 위해서 9 사이클을 취했다. 나중에 이 학위논문은 TCE, Tensilica 와 OpenRICS 사이의 비교를 나타낸다. 결과는 Tensilica 툴은 OpenRISC 보다 더 많은 사이클을 취하고 TCE의 성능은 다른것들과 비교했을때 더 좋다는 것을 보여준다. 그러나 이 비교에서 OpenRISC 프로세서의 제한 때문에 오직 LT 엔코더만 시뮬레이션 되었다. Tensilica와 마찬가지로 OpenRISC는 명령을 실행하기 위해서 몇몇 사이클을 사용하는데이는 OTA 클레스 프로세서 툴의 일반적인 행동이다.|Luby Transform code nowadays plays an important role in the area of fountain code. This thesis reports the various techniques for implementation of LT codec using the application specific instruction set processor (ASIP) design tools. In ASIP design, a common approach to increase the performance of processors is to boost the number of function units for ensuring concurrent operation. Due to this reason, in past few decades researches had been carried out to dedicate the operation of processor on application specific domain. Therefore, in this research paper, such an application specific work like LT codec was implemented using different processor platforms. The performance of the hardware not only depends on architecture of the processor but also depends on structure of the input application i.e. LT codec for this thesis. Therefore, optimizations like strategy of input design, processor and compiler architecture are very useful phenomenon to enhance the performance of the application specific processor. In past few years, processor architectures had been evolved in the area of RISC family. Some key concepts like instruction level parallelism (ILP), bypassing technique, and multiple instruction executions are included with the operation of the RISC processor. Hence transport triggered architecture (TTA) is promising style in application specific processor design. This thesis analyzes some techniques to design a high speed TTA processor for LT codec. Besides this modification of TTA architecture, the design of the LT encoder and decoder should be modified to make a simple and computationally efficient codec processor. Therefore, in this thesis, sum product algorithm known as soft decoding had been used for message recovery purpose and this algorithm took very less iterations for generating error free decoded signal from encoded bit streams through AWGN channel.
TTA based co-design environment (TCE) tool has been used for developing various category of processors in this LT codec implementation. Moreover, to compare this result with other’s response, Tensilica and OpenRISC tools are taken for implementing this LT codec. Like TCE, in Tensilica tool several configurations are chosen and modified for optimizing the performance of the processor. Based on these activities some useful results are produced and it shows that LT_CODEC.adf architecture under TTA takes minimum cycles compared to other architectures of TCE and Tensilica tools for implementing LT encoder and decoder. In this processor, some processor architectures named as Decoder.adf and Decoder_llr.adf and finally LT_CODEC.adf are generated for gradually improving the performance of the TTA processor. LT_CODEC.adf took only 4466 cycles and 43 ms for simulating LTcodec, which is very less compared to the Tensilica tool. Nevertheless, the simulation speed of Tensilica is very high compared to the TCE tool. From this simulation result, it can be shown that TCE executes almost 100 K cycles per second using 100 MHz clock. However, Tensilica runs 1 M cycles per second using ConnX D2 engine. It is shown that the decoding technique of LT codec has been performed as iterative manner and the manner of this decoding iteration due to the change of different processor architectures was investigated using TCE and Tensilica tools. From this experiment, LT_CODEC.adf of TCE tool took only single iteration for generating decoded signal. However, XRC_D2MR configuration of Tensilica took 9 cycles for successful decoding. Later, this thesis portrays a comparison between TCE, Tensilia and OpenRISC tool. Result shows that Tensilica tool takes more cycles than OpenRISC and the performance of the TCE is very good compared to others. But, in this comparison, only LT encoder was simulated due to the limitations of OpenRISC processor. Like Tensilica, OpenRisc takes separate cycles for executing the instructions, which is a common behavior of the operation triggered architecture (OTA) class processor tools. On the other hand, for TCE tool it is occurred as the side effect of data transport. Moreover, to determine the efficiency of the LT Codec architecture, the encoder and decoder are implemented with a core area of 9 mm2 in TSMC 180-nm 1-poly 6-metal and Samsung 130-nm complementary metal–oxide–semiconductor (CMOS) technology. Therefore, an efficient trade off is required between all these observations to design an excellent processor based on the specific input application.
- Alternative Title
- ASIP 구현툴들을이용한고속 LT Codec 프로세서설계
- Alternative Author(s)
- 알람 샴술
- Affiliation
- 조선대학교 대학원
- Department
- 일반대학원 정보통신공학과
- Advisor
- GoangSeog Choi
- Awarded Date
- 2013-08
- Table Of Contents
- List of Figures……………………………………………………………. iv
List of Tables……………………………………………………………... viii
List of Abbreviations and Symbols…………………………………….. x
Abstract…………………………………………………………………... xiv
1 Introduction……………………………………………………………... 1
1.1 Design Goal or Motivation ……………………………………………….. 1
1.2 Thesis Organization……………………………………………………….. 6
2 Evolution of RISC Processor …………………………………………… 8
2.1 Design Automation…………………………...……………………… 8
2.2 Performance of Computer System…………………………………… 11
2.3 Overview of Architecture Developments…………………………….. 12
2.3.1 Multiple Instruction Issue……………………………………….. 15
2.3.2 Architecture Design Space……………………………………… 15
2.4 Application Oriented Architecture…………………………………… 16
2.5 Parallel Computing: Amdahl’s Law…………………………………. 19
2.6 Complexity of Instruction Level Parallel Processors………………… 20
2.6.1 Data Path Complexity…………………………………………… 20
2.6.2 Non-pipelined Processor………………………………………... 22
2.6.3 Pipelined Processor…………………………………………… 24
2.7 Implementation Detail of RISC Processors………………………….. 24
2.7.1 Superpipelined Architecture…………………………………….. 28
2.7.2 VLIW Architecture……………………………………………… 29
2.7.3 Comparative Study on VLIW and Superpipelined Architectures………………………..........................31
3 Transport Triggered Architecture (TTA)………………………………35
3.1 VLIW to TTA………………………………………………………… 35
3.1.1 Reducing the RF Complexity……………………………………36
3.1.2 Reducing Bypass Complexity…………………………………...41
3.2 Transport Triggered Architecture (TTA)…………………………….42
3.2.1 Hardware aspects of TTAs……………………………………… 45
4 Luby Transform Encoder and Decoder……………………………..49
4.1 Coding Theory……………………………………………………….. 49
4.2 Fundamentals of Channel Coding……………………………………52
4.2.1 Channel Models………………………………………………… 52
4.2.1.1 Binary-Input, Memoryless and Symmetric (BIMS) Channels………………………………………………........ 53
4.2.1.2 Binary Erasure Channel (BEC)…………………………….54
4.2.1.3 Zcha Channel……………………………………………... 55
4.3 Linear Codes…………………………………………………………. 55
4.4 Belief Propagation Decoding Algorithm……………………………56
4.4.1 Binary-input MAP Decoding via Belief Propagation………… 57
4.4.2 Message-Passing Rules for Bit-wise MAP Decoding…………... 59
4.5 Fountain Codes………………………………………………………. 62
4.5.1 Properties of Fountain Codes……………………………… 63
4.5.2 The Random Linear Fountain………………………………….. 65
4.6 Luby Transform Codes………………………………………………. 68
4.6.1 Encoding Process……………………………………………...... 69
4.6.2 Decoding Process……………………………………………...... 70
4.6.3 Degree Distribution Design……………………………………. 73
4.6.3.1 Ideal Soliton Distribution………………………………… 74
4.6.3.2 Robust Soliton Distribution……………………………… 76
4.7 Hardware Implementation of LT Codec………………………77
5 LT Codec Processor Design Using ASIP Tools……………85
5.1 Proposed Architecture of LT Encoder and Decoder…………………. 85
5.1.1 HW Architecture of Encoder……………………………….. 86
5.1.2 HW Architecture of Decoder………………………………….. 88
5.1.3 Decoding Procedure Using HLL……………………………… 92
5.2 Processor Design Using ASIP Tools……………………………95
5.2.1 ASIP Design with TCE…………………………………………. 95
5.2.2 Processor Design Space Exploration…………………………… 98
5.2.3 TTA Programming……………………………………………… 99
5.2.4 Code Generation Method Using TCE Tool………… 101
5.2.5 Program Image and Processor Generation……… 105
5.3 ASIP Design Flow Using Xtensa Xplorer (XX): Tensilica Tools…… 106
5.3.1 Extension via TIE………………………………………………. 110
5.4 OpenRISC Tool……………………………………………………… 112
6 Simulation Result……………………………………………………….. 117
6.1 LT Codec Simulation Using TCE Tool……………………… 117
6.2 Simulation Result Using Tensilica Tool ……………………………128
6.3 Simulation Result by Using OpenRisc Tool…………………131
6.4 Comparison Between All LT Codec Processors………134
7 Conclusions……………………………………………………………... 136
7.1 Summary……………………………………………………………... 136
7.2 Future Work………………………………………………………....139
Appendix I………………………………………………………………..... 141
Appendix II…………………………………………………………………. 142
References…………………………………………………………………... 145
Acknowledgement………………………………………………………….. 148
- Degree
- Master
- Publisher
- 조선대학교 대학원
- Citation
- S. M. Shamsul Alam. (2013). A High Speed LT Codec Processor Design Using ASIP Implementation Tools.
- Type
- Dissertation
- URI
- https://oak.chosun.ac.kr/handle/2020.oak/9847
http://chosun.dcollection.net/common/orgView/200000263893
-
Appears in Collections:
- General Graduate School > 3. Theses(Master)
- Authorize & License
-
- AuthorizeOpen
- Embargo2013-08-22
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.