CHOSUN

Routing Algorithms Based on Reinforcement Learning for Unmanned Aerial Vehicle Swarm Networks

Metadata Downloads
Author(s)
알람 무하마드 물셰드
Issued Date
2023
Abstract
최근 무인 비행체(UAV)는 군사 및 민간 영역에서 광범위한 잠재적 응용 분야로 학계 및 산업 연구 커뮤니티의 관심을 끌고 있다. 유연한 3차원(3D) 이동성, 주문형 배치 및 저렴한 비용으로 인해 협업 무인 비행체 군집 네트워크(UAVSN)는 비상 시 감시 및 통신 범위 확대와 같은 새로운 임무를 효과적으로 수행할 수 있다. 높은 이동성, 동적 토폴로지, 제한된 에너지 및 빈번한 링크 손상으로 인해 원격 UAV에서 기지국(BS)으로의 데이터 패킷 라우팅은 과도한 재전송, 긴 지연시간, 강력한 상호 간섭, 에너지 소모 불균형 및 전송 루프를 발생시킨다. 따라서 UAVSN에서는 협업 이동성 제어, 예측 3D 링크 지속시간(LD)으로 정의된 경로 안정성, 링크 신호 대 간섭 잡음비(SINR), 지연시간 및 잔여 에너지가 긴밀하게 결합되어 있기 때문에, 임무 수행 및 라우팅 성능을 모두 향상시키기 위해 동시에 고려되어야 한다. 이를 효과적으로 해결하기 위해, 본 연구에서는 군집 행동 기반 적응형 이동성 제어 및 강화 학습을 활용하여 UAVSN에서 협업 이동성 제어 및 다중 링크 품질 기반 라우팅을 고찰한다. 이같은 접근 방법은 자원 제약 동적 UAVSN에서 다중 목적 최적화를 수행하는데 적합하다.
첫 번째 연구에서는UAVSN을 활용한 군중 감시 임무를 수행하기 위해 세 개의 모듈로 구성된 토폴로지 제어 및 라우팅 결합(JTCR) 프로토콜을 제안한다. JTCR의 첫째 모듈은 무선 링크에서 안정적인 연결을 보장하면서 이동식 지상 목표를 추적하기 위해 UAV의 이동성을 제어하는 가상 힘 기반 이동성 제어(VFMC)를 수행한다. 둘째 모듈은 VFMC에서 제공하는 UAV 이동성을 활용하여 UAVSN 토폴로지를 클러스터링하여 감지된 데이터를 각 클러스터 헤드(CH)로 집계하는 에너지 효율적인 이동성 기반 퍼지 클러스터링을 수행한다. 셋째 모듈은 네트워크 지연시간, 경로 안정성 및 UAV의 에너지 소비 측면에서 최적의 경로를 선택하여 수집된 데이터를 CH UAV에서 BS로 전송하는 토폴로지 기반 라우팅을 수행한다.
두 번째 연구에서는 재난 상황에서 감시 임무를 실행하기 위해 적응형 군집 제어로부터 착안한Q-러닝(QL) 기반 라우팅(QRIFC) 프로토콜을 제안한다. QRIFC에서 제안된 적응형 군집 제어 알고리즘은 최적의 노드 밀도를 제어하기 위해 각 UAV에 대해 이동 거리의 형평성과 함께 최적의 이동성을 생성한다. 또한 2홉 이웃 정보를 사용하여 최소 이격 거리와 허용 가능한 UAV 상호 간격에 제약을 둠으로써 통신 가능 범위와 연결 서비스 품질 간의 절충점을 찾는다. 또한, 인접 UAV 간 안정적인 LD를 제공하고 제어 오버헤드를 최소화한다. QL은 새로운 상태 탐색 및 이용 전략을 활용하여 예측 3D 최대-최소 LD로 정의된 안정적인 경로 선택 및 UAV에너지 소비 등의 측면에서 최적의 경로를 선택하여 다중 목적 최적화를 수행한다.
마지막 연구에서는UAV 링크 안정성, SINR, 지연시간 및 잔여 에너지를 함께 고려하여 링크 이용률이 최대화되는 경로 제어, 주파수 할당 및 라우팅 결합(JTFR) 프로토콜을 제안한다. 교차 계층 설계에서의 여러 매개 변수를 기반으로 하는 복잡한 순차적 의사 결정 과정 때문에 최적의 링크 이용률을 찾는 것은 매우 어렵다. JTFR은 최적의 솔루션을 얻기 위해 군집 동작과 결합된 적응형 분산 다중 에이전트 심층 결정론적 정책을 사용한다. 각 UAV에 대해, 동적 토폴로지를 채택하기 위해 2홉 이웃 정보를 포함하는 단기 메모리 기반 상태 표현 계층을 활용하여 행위자 네트워크(actor network)를 설정한다. 이후 확장 가능한 다중 헤드 기반 비평가 네트워크(critic network)가 설정되어 이웃 노드와 협력하여 각 UAV의 행위자 네트워크 정책을 적응적으로 조정한다.
제안된 각 프로토콜의 성능을 기존 프로토콜들과 비교 평가하기 위해 광범위한 컴퓨터 시뮬레이션을 수행한다. 우리의 성능 평가에 따르면, 제안된 JTCR은 기존 프로토콜에 비해 34% 향상된 추적 범위 속도, 9.5% 향상된 연결 속도, 7-21% 향상된 평균 패킷 전송 비율(PDR), 9-37% 감소된 평균 종단 간 지연(AE2ED) 및 15-23% 감소된 에너지 소모를 보여준다. 이는 주로 제어 오버헤드와 감소와 적은 수의 재전송에 따른 UAV 군집의 현실적인 이동성 제어에 기인한다. 제안된 QRIFC는 AE2ED를 21-40% 줄이고 재전송 횟수를 줄이면서 평균 PDR을 9-23% 더 높여 기존 라우팅 프로토콜을 능가한다. 또한, 제안된 JTFR은 AE2ED 30-60%, 평균 PDR 15-32%, 에너지 소비 20-46%까지 기존 라우팅 프로토콜을 능가한다.|In recent years, unmanned aerial vehicles (UAVs) have attracted increased attention from academic and industrial research communities for their wide range of potential applications in military and civilian domains. Owing to the flexible three-dimensional (3D) mobility, on-demand deployment and low cost, a collaborative UAV swarm networks (UAVSNs) can effectively execute emerging missions such as surveillance and communication coverage in an emergency. Due to the high mobility, dynamic time-varying topology, limited onboard energy, and frequent link breakages, data packet routing from remote UAVs to base station (BS) produces excessive retransmissions, long delays, strong mutual interferences, energy holes, and loops. Therefore, in UAVSNs, collaborative mobility control, path stability defined by predictive 3D link duration (LD), link signal-to-interference-plus-noise ratio (SINR), delay, and residual energy of UAVs should be jointly taken into consideration to improve both mission and packet routing performance because they are tightly coupled. To effectively address the above challenges, we jointly consider the collaborative mobility control and multi-link quality metric packet routing in UAVSNs by utilizing nature-inspired swarming behavior-based adaptive mobility control and reinforcement learning, which are suitable to perform multi-objective optimization in a resource constraint dynamic UAVSNs.
In the first work, we propose a joint topology control and routing (JTCR) protocol comprising three modules to perform a crowd surveillance mission utilizing a UAVSN. The first JTCR module provides virtual force-based mobility control (VFMC), which controls the mobility of UAVs to track the mobile ground target while ensuring stable connectivity in aerial links. The second module provides energy-efficient mobility-aware fuzzy clustering that clusters the UAVSN topology to aggregate the sensed data to each cluster head (CH) by utilizing the UAV mobility provided by the VFMC. The third module provides topology-aware Q-routing, which routes the aggregated data from CH UAVs to the BS by selecting an optimal path in terms of network delay, path stability, and energy consumption of UAVs.
In the second work, we propose a Q-learning (QL)-based routing protocol inspired by adaptive flocking control (QRIFC) to execute a surveillance mission in a post-disaster scenario. In QRIFC, the proposed adaptive flocking control algorithm generates optimal mobility with fairness in travel distance for each UAV to control the optimal node density. It also addresses the trade-off between aerial coverage and quality of service in connectivity by imposing constraints on the minimum separation distance and maximum allowable inter-UAV spacing using two-hop neighbor information. Additionally, it provides a stable LD between neighboring UAVs and optimizes the control overhead. Furthermore, QL performs multi-objective optimization by utilizing a new state exploration and exploitation strategy to select an optimal routing path in terms of delay, stable path selection defined by predictive 3D maximum-minimum LD, and energy consumption of UAVs.
In the last work, we propose joint trajectory control, frequency resource allocation, and packet routing (JTFR), in which link utility is maximized by jointly considering the link stability, SINR, queuing delay, and residual energy of UAVs. Finding the optimal link utility is extremely challenging because of the complex sequential decision-making process based on multiple constraint parameters in cross layer design. JTFR employs adaptive distributed multi-agent deep deterministic policy gradient coupled with swarming behavior to obtain the optimal solution. For each UAV, an actor network is established by utilizing a long short-term memory-based state representation layer containing two-hop neighbor information to adopt the dynamic time-varying topology. Subsequently, a scalable multi-head attentional critic network is set up to adaptively adjust the actor-network policy of each UAV by collaborating with neighbors.
Extensive computer simulation is performed to evaluate the performance of each proposed protocol by rigorously comparing it with existing baseline protocols. According to our performance study, the proposed JTCR shows 34% better tracking-coverage rate, 9.5% better connectivity rate, 7-21% average better packet delivery ratio (PDR), 9-37% less average end-to-end delay (AE2ED), and 15-23% less energy consumption in comparison to existing routing protocols. This is mainly enabled by the realistic mobility control of the UAV swarm at the reasonable cost of control overhead and a smaller number of retransmissions. The proposed QRIFC outperforms existing routing protocols by 21-40 % less AE2ED and 9-23% higher average PDR with fewer retransmissions. Similarly, the proposed JTFR outperforms existing routing protocols by 30-60% less AE2ED, 15-32% better average PDR, and 20-46% less energy consumption.
Alternative Title
무인 비행체 군집 네트워크를 위한 강화 학습 기반 라우팅 알고리즘
Alternative Author(s)
Muhammad Morshed Alam
Affiliation
조선대학교 일반대학원
Department
일반대학원 컴퓨터공학과
Advisor
모상만
Awarded Date
2023-08
Table Of Contents
1. Introduction 1
1.1 Components of UAV Swarm Networks 3
1.2 Design Issues of Routing Protocols in UAVSNs 4
1.2.1 Connectivity 5
1.2.2 Coverage 5
1.2.3 Distributed Algorithm 6
1.2.4 Tolerance to Communication Delay and Localization Error 6
1.2.5 Collision Avoidance and Tolerance to UAV Failure 7
1.2.6 Optimal Control Overhead and Number of Transmissions 7
1.2.7 Link Bidirectionality 7
1.2.8 Redundancy 7
1.2.9 Stability and Scalability of Dynamic UAVSNs 7
1.2.10 Optimizing UAV Energy Consumption 8
1.2.11 Convergence Time 8
1.3 Organization of Thesis 8

2. Related Works 9
2.1 Topology Control for UAVSNs 9
2.1.1 TCA Interaction with MAC Protocol 10
2.1.2 TCA Interaction with Routing Protocol 11
2.1.3 TCA Interaction with Formation Control 12
2.1.4 Taxonomy of TCAs 13
2.1.5 TCA for Connectivity and Coverage 18
2.2 Existing Mobility Models and Routing Protocols 20
2.2.1 Existing Collaborative Mobility Models 20
2.2.2 Existing Routing Protocols 21
2.3 Issues and Challenges of Routing in UAVSNs 34
2.3.1 Joint TCA and Routing 34
2.3.2 Realistic Mobility Model 34
2.3.3 Multi Objective Reward Function Design 35
2.3.4 Trade-off Between Exploration and Exploitation 35
2.3.5 Precise Calculation of UAV Energy Consumption 35
2.3.6 Cross Layer Design 36
2.3.7 Neural Network Architecture 36
2.3.8 Model Training and Adaptive Learning 37
2.4 Comparison Between Proposed Routing Protocols 37

3. Joint Topology Control and Routing 39
3.1 Introduction 39
3.2 System Model 42
3.2.1 Channel and Delay Model 44
3.2.2 Topology Construction Model in FANETs 45
3.2.3 Q-Learning-Based Inter-Cluster Routing Model 47
3.3 Topology Control and Routing Algorithms 49
3.3.1 Distributed VFMC Algorithm 49
3.3.2 EMFC Clustering 55
3.3.3 TAQR Learning 61
3.3.4 Cost and Time Complexity 67
3.4 Performance Evaluation 67
3.4.1 Simulation Environment 68
3.4.2 Performance Metrics 69
3.4.3 Simulation Results and Discussion 70
3.5 Conclusion 79

4. Q-Learning-Based Routing Inspired by Adaptive Flocking Control 80
4.1 Introduction 80
4.2 System Model 84
4.2.1 Channel Model 86
4.2.2 Delay Model 86
4.2.3 Energy Model 87
4.2.4 Problem Formulation 88
4.2.5 Framework for AFCA and QRIFC 89
4.3 Flocking Control and Routing Algorithms 91
4.3.1 Adaptive Flocking Control 91
4.3.2 Q-Learning-Based Routing 96
4.3.3 Topology Update Cost and Time Complexity 101
4.4 Performance Evaluation 102
4.5 Conclusion 113

5. Joint Trajectory Control, Frequency Allocation, and Routing 114
5.1 Introduction 114
5.2 System Model 118
5.2.1 Channel Model 119
5.2.2 Delay Model 120
5.2.3 Energy Model 121
5.2.4 Problem Formulation 121
5.2.5 Behavior-Based Motion Model 122
5.3 DMA-DDPG-Based JTFR Algorithm 125
5.3.1 Necessary Preliminaries of DRL 125
5.3.2 MDP Formulation for JTFR 126
5.3.3 Adaptive DMA-DDPG for JTFR 128
5.3.4 Computational Complexity 133
5.4 Performance Evaluation 134
5.4.1 Performance Metrics 137
5.4.2 Simulations Results and Discussion 137
5.5 Conclusion 145

6. Conclusions and Future Works 146
6.1 Conclusions 146
6.2 Future Works 147

Bibliography 148

Acknowledgements 163
Degree
Doctor
Publisher
조선대학교 대학원
Citation
알람 무하마드 물셰드. (2023). Routing Algorithms Based on Reinforcement Learning for Unmanned Aerial Vehicle Swarm Networks.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/17773
http://chosun.dcollection.net/common/orgView/200000687222
Appears in Collections:
General Graduate School > 4. Theses(Ph.D)
Authorize & License
  • AuthorizeOpen
  • Embargo2023-08-25
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.