CHOSUN

A Cryptographic Approach towards Privacy-Preserving Image Data Transmission, Storage and Computation

Metadata Downloads
Author(s)
아흐마드 이자즈
Issued Date
2023
Keyword
privacy-preserving deep learning, image encryption, image compression, medical image analysis, machine learning, data augmentation, JPEG standard
Abstract
In today’s world, most of the automated applications ranging from the health sector to the entertainment industry are driven by Artificial Intelligence (AI), owing to the success of deep learning (DL) algorithms. There are two main challenges in the development and implementation of DL-based solutions. First, DL algorithms are characterized as compute-intensive tasks, and their training requires innovative technology and high computational resources. Second, training DL models for a particular task requires a large volume of sample data, which in some domains such as in the field of medical image analysis, is expensive and difficult to acquire. To overcome these limitations, cloud services such as computing, and storage resources are emerging as one of the cost-effective solutions. For example, in the first case, organizations can avail cloud-computing services to access the latest technology to speed-up the training process and allow DL models to scale efficiently with a lower capital cost. Similarly, to mitigate the data deficiency challenge, an organization can benefit from a community cloud, where services are shared by organizations with common interests to achieve their goals. In this case, cloud storage services can be utilized as a shared data repository for joint projects and collaboration among the organizations. Nonetheless, like all communication systems, when data is outsourced to the avail of cloud services, there is a risk of information leakage, which can lead to privacy concerns. A straightforward solution to this is the encryption of data before transmission and for which the full encryption algorithms based on the number theory and chaos theory are proven to be the most secure techniques. Though this guarantees security during transmission, it is necessary to decrypt the data prior to performing any computations on them. This data reveal may be tolerable in certain scenarios; however, when dealing with privacy-sensitive data such as medical images, surveillance data, financial data, etc., such encryption techniques are not adequate to cater to the requirements of privacy preserving computation. In addition, when transmitting large volumes of data (especially image data), compression is necessary to efficiently utilize the available limited bandwidth. On the other hand, techniques specifically proposed to enable computation in the encryption domain have their associated computational cost, communication overhead and specialized design requirement that may reduce data utility and degrade the DL model performance. Therefore, privacy-preserving techniques that can jointly satisfy the dual requirements of data transmission, data storage and computation in the encryption domain are of immense importance.

In this work, we first investigate the order of performing compression and encryption processes that gives a better trade-off between compression savings and encryption efficiency and measure its impact on the downstream application performance. Next, we present a detailed taxonomy and comprehensive analysis of the JPEG compatible perceptual encryption methods in terms of their encryption and compression efficiencies. We adapt the assorted practices that have been proposed to effectively manage the encryption and compression trade-off, into a uniform framework, which may serve as a guideline for selecting appropriate techniques according to the privacy-preserving system requirements. To find proper trade-offs between achieving necessary privacy-preservation (during transmission and computation), preserving compression savings and downstream application accuracy, we present a novel transformation function to overcome the limitations of the perceptual encryption methods. In our proposed end-to-end system pipeline for privacy-preserving computation, the compression block introduces certain information loss that may degrade the model accuracy, we propose a novel noise-based data augmentation technique to mitigate the impact of the compression artifacts on the trained DL model performance. To validate the usefulness of the proposed method, we consider a wide range of privacy-preserving applications such as privacy-preserving face recognition, privacy-preserving natural image classification and privacy-preserving COVID-19 detection in Chest X-ray images.

Our simulation results show that the proposed simultaneous image encryption and compression scheme for secure and efficient data transmission and/or storage, preserves the lossless compression saving, and with our data-to-symbol mapping function the compression saving is improved on average from 6% to 15%. On the other hand, in the privacy-preserving computation domain, the proposed PE-based scheme at best introduces a decrease of ~5% in the prediction accuracy of a DL model for natural image classification task while ~3% drop in the model’s accuracy and sensitivity scores for medical image analysis. In the face recognition application, the proposed privacy preservation scheme delivers the same recognition accuracy as that of the plain images. Moreover, the proposed noise-based augmentation method has reduced the difference in model accuracy from 11% to 2% for classification of natural images.|딥러닝(DL) 알고리즘의 발전이 인공지능(AI) 기반 자동화 애플리케이션의 확산을 이끌고 있다는 사실은 보건부터 엔터테인먼트까지 넓은 범위에서 목격된다. 그러나, DL 기반 솔루션을 개발하고 구현하는 데는 크게 두 가지 주요 장애물이 있다. 첫째로, DL 알고리즘이 매우 연산 집약적이며, 그 학습 과정은 혁신적인 기술과 상당한 계산 자원을 필요로 한다. 둘째로, DL 모델의 학습을 위해선 풍부한 샘플 데이터가 요구되는데, 특히 의료 이미지 분석 등 일부 분야에서는 비용 문제와 확보의 어려움이 동시에 발생한다.

이러한 한계를 극복하기 위한 방법 중 하나로 클라우드 서비스, 특히 컴퓨팅과 스토리지 자원이 주목 받고 있다. 예를 들어, 딥러닝 기술을 사용하는 조직들은 클라우드 컴퓨팅 서비스를 이용하여 최신 기술에 접근하고, 학습 과정을 가속화하며, DL 모델을 보다 저렴한 비용으로 효율적으로 확장할 수 있다. 또한, 데이터 부족 문제 해결이라는 공동의 목표를 위해 서비스를 공유하는 커뮤니티 클라우드의 이점을 활용할 수 있다. 이 경우, 클라우드 스토리지 서비스는 조직 간의 공동 프로젝트 및 협업을 위한 공유 데이터 저장소 역할을 할 수 있다.

그러나, 클라우드 서비스를 이용하여 데이터를 아웃소싱할 때는 데이터 유출 위험이 있으며, 이는 개인정보 보호 문제로 이어질 수 있다. 이 문제를 간단히 해결하는 방법은 데이터를 전송하기 전에 암호화하는 것이다. 정수론과 혼돈 이론에 기반한 완전 암호화 알고리즘이 가장 안전하다고 알려져 있다. 이 방법은 데이터의 보안성을 보장하지만, 데이터를 처리하기 전에는 암호를 해독해야 한다. 이

방법은 일부 응용 시나리오에서는 적용 가능하지만, 의료 이미지나 감시 데이터, 재무 데이터 등 개인 정보에 민감한 데이터 처리의 경우 개인정보 보호 요구 사항을 만족시키기는 어렵다. 또한, 큰 데이터(특히 이미지 데이터)를 전송하면서 제한된 대역폭을 효과적으로 활용하기 위해 데이터 압축이 필요하다. 한편으로, 암호화 영역에서 계산을 가능하게 하는 PPDL 기술은 연산 비용, 통신 오버헤드 및 특수 설계 요구 사항 등으로 인해 데이터 유틸리티를 줄이고 DL 모델의 성능을 저하시킬 수 있다. 따라서, 데이터 전송과 저장, 그리고 연산에 대한 보안 요구를 모두 충족시킬 수 있는 개인정보 보호 기술은 매우 중요한 연구 주제라 할 수 있다.

본 연구에서는 먼저 압축 절약과 암호화 효율성 사이의 더 나은 균형을 찾기 위해 압축과 암호화 과정의 수행 순서를 조사하고, 이것이 다운스트림 애플리케이션의 성능에 어떠한 영향을 미치는지 측정하였다. 다음으로, JPEG 호환 지각 암호화 방법에 대한 자세한 분류 체계와 포괄적인 분석을 제시하였으며, 이는 암호화와 압축 효율성 측면에서 고려되었다. 본 연구에서는 암호화와 압축의 균형을 효과적으로 관리하기 위해 제안된 다양한 방법을 표준 프레임워크로 적용하여, 개인정보 보호 시스템의 요구 사항에 따라 적절한 기술을 선택하는 지침이 될 수 있도록 지표들을 제시하였다. 필요한 개인정보 보호(전송 및 계산 중), 압축 절약의 보존, 그리고 다운스트림 애플리케이션의 정확도 사이의 적절한 균형을 찾기 위해, 연구에서는 지각 암호화 방법의 한계를 극복하는 새로운 변환 함수를 제시하였다. 연구에서 제안하는 개인정보 보호 연산을 위한 종단간 시스템 파이프라인에서는, 압축 블록이 모델 정확도를 저하시킬 수 있는 특정 정보의 손실을 초래하였다. 이에 대응하기 위해, 연구에서는 훈련된 DL 모델의 성능에 압축 아티팩트의 영향을 완화하는 새로운 노이즈 기반 데이터 확대 기술을 제안하였으며, 제안된 방법의 유용성을 확인하기 위해 흉부 X-선 이미지에서의 개인정보 보호 얼굴 인식, 개인정보 보호 자연 이미지 분류, 그리고 개인정보 보호 COVID-19 감지 등 다양한 개인정보 보호 애플리케이션을 고려하였다.

시뮬레이션 결과로부터, 제안된 동시 이미지 암호화 및 압축 기법이 안전하고 효율적인 데이터 전송 및 저장을 가능하게 하며, 무손실 압축 절약을 유지하고, 데이터 대 심볼 매핑 함수를 통해 압축 절약을 평균 6%에서 15%까지 향상시킨다는 것을 확인하였다. 또한, 제안된 PE 기반 방식을 사용하면,

개인정보 보호 연산 영역에서 자연 이미지 분류 작업에 대한 DL 모델의 예측 정확도는 약 5% 감소하는 반면, 의료 이미지 분석에 대한 모델의 정확도와 민감도 점수는 약 3% 감소함을 확인하였다.
Alternative Title
개인정보 보호를 위한 이미지 데이터 전송, 저장, 연산에 대한 암호화 접근법
Alternative Author(s)
Ijaz Ahmad
Affiliation
조선대학교 일반대학원
Department
일반대학원 컴퓨터공학과
Advisor
신석주
Awarded Date
2023-08
Table Of Contents
I. INTRODUCTION 1
1.1. Preface 1
1.2. Thesis Statement 1
1.3. Research Objectives and Questions 2
1.4. Contributions 4
1.5. Publications and Thesis Outline 7
1.6. Other Publications 11

II. BACKGROUND 14
2.1. Chinese Remainder Theorem 14
2.2. 2D Hyper-Chaotic System 14
2.3. Logistic Map 15
2.4. Lossless Compression and Information Theory 15
2.5. The JPEG Standard 16
2.6. Evaluation Metrics 21
2.6.1. Encryption Analysis Metrics 21
2.6.2. DL Performance Analysis Metrics 24

III. SIMULTANEOUS IMAGE ENCRYPTION AND COMPRESSION 26
3.1. Motivation 26
3.2. Related Work 26
3.3. Proposed Method 29
3.3.1. Permutation Block 30
3.3.2. Compression Block 32
3.3.3. Substitution Block 36
3.4. Experimental Results and Analysis 38
3.4.1. Security Analysis and Discussion 38
3.4.2. Compression Analysis and Discussion 48
3.5. Chapter Summary 50

IV. PERCEPTUAL ENCRYPTION-BASED ENCRYPTION-THEN-COMPRESSION SCHEME 52
4.1. Introduction 52
4.2. Taxonomy of Compressible Perceptual Encryption Methods 54
4.2.1. Color-CPE Methods 55
4.2.2. Extended-CPE Methods 55
4.2.3. PGS-CPE Methods 55
4.3. Block-Based Compressible Perceptual Encryption Methods 56
4.3.1. Color-CPE Methods 57
4.3.2. Extended-CPE Methods 59
4.3.3. PGS-CPE Methods 61
4.4. Proposed Method 64
4.4.1. Motivation 64
4.4.2. Proposed Extended BPE Methods (EBPE) 64
4.4.3. Principal Design: Inside-Out Transformation 72
4.4.4. Proposed Compressible PE Method 73
4.5. Simulation Results and Analysis 75
4.5.1. Compression Analysis 75
4.5.2. Encryption Analysis 87
4.6. Chapter Summary 99

V. THE CASE OF PRIVACY IN CLOUD-BASED MEDICAL IMAGE ANALYSIS 100
5.1. Introduction 100
5.2. Related Work – Deep Learning-based Tuberculosis Screening 103
5.3. Extension of CPE Methods for Grayscale Image Processing 104
5.3.1. GS-CPE 105
5.3.2. GS-IIB-CPE 106
5.4. Simulation Results and Analysis 106
5.4.1. Visual Analysis 107
5.4.2. Compression Analysis 108
5.4.3. Encryption analysis. 110
5.4.4. DL-based TB Screening in CXR Images Analysis 111
5.5. Compression Artifacts Impact on DL Model Performance and its Remedy 117
5.5.1. Motivation 117
5.5.2. Related Work 118
5.5.3. Proposed Noise-Based Augmentation Method 119
5.5.4. Simulation Results and Analysis 121
5.6. Chapter Summary 131

VI. PERCEPTUAL ENCRYPTION-BASED PRIVACY-PRESERVING DEEP LEARNING APPLICATIONS 133
6.1. Privacy-Preserving Face Recognition Scheme 133
6.1.1. Motivation 133
6.1.2. Introduction 133
6.1.3. Related Work 134
6.1.4. Proposed Method 135
6.1.5. Privacy-Preserving Face Recognition Analysis 137
6.1.6. Summary 139
6.2. Privacy-Preserving Image Classification 139
6.3. Privacy-Preserving COVID-19 Detection in Chest X-Ray Images 143
6.3.1. Motivation 143
6.3.2. Introduction 143
6.3.3. Related Work 144
6.3.4. Setup and System Model 145
6.3.5. PPDL-based Classification Analysis 146
6.3.6. Summary 150
6.4. Chapter Summary 150

VII. CONCLUSION 153
6.1. Conclusion 153
6.2. Future Work 154

REFERENCES 155

ACKNOWLEDGMENTS 166
Degree
Doctor
Publisher
조선대학교 대학원
Citation
아흐마드 이자즈. (2023). A Cryptographic Approach towards Privacy-Preserving Image Data Transmission, Storage and Computation.
Type
Dissertation
URI
https://oak.chosun.ac.kr/handle/2020.oak/17761
http://chosun.dcollection.net/common/orgView/200000688199
Appears in Collections:
General Graduate School > 4. Theses(Ph.D)
Authorize & License
  • AuthorizeOpen
  • Embargo2023-08-25
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.