Robust Physical-World Attacks on Deep Learning Visual Classification, CVPR 2018(이하 RP2) 논문은 2018년 CVPR에 게재된 adversarial attack의 가능성을 소개하는 논문입니다. 그동안 많은 Adversarial attack 기법들이 단지 소프트웨어적인 관점에서 Optimization Problem을 해결하려고 시도했다면, 이 논문은 그러한 맥락에서 조금은 벗어난 내용입니다. 정확히는 실제 물리적인 공간 안에서 adversarial attack의 적용가능성과 위험성에 대해 소개하고 있습니다.
◎ INTRODUCTION
전통적인 방식의 공격 기법들은 정해진 데이터셋에서 정적인 방법의 실험을 진행하였습니다. 여기서 정적인 방법이라 하면, 주어진 데이터셋의 조건을 그대로 받아들였으며 환경 조건에 대한 탐구보다는 알고리즘의 성능적인 측면에서의 검증을 많이 시도했습니다. 어찌보면 이는 새로운 알고리즘을 제안하는 입장에서는 당연한 평가 방식일지도 모릅니다. 하지만 RP2 논문에서는 Digital-space 와는 다르게 Pyshcial-space에서는 또 다른 기준이 적용될 수 있음을 시사합니다. 여기서 제시하는 평가방식은 '자율주행차의 관점에서 도로교통 표지판 인식' 에 기초합니다. 자율주행은 사람의 생명이 달려있기에 security-sensitive하며 physical-world에서 adversarial attack의 위험성이 가장 많이 다루어진 도메인 중 하나입니다. 본 논문에서는 실험의 정당성을 다음과 같이 서술하고 있습니다.
- 1. 도로교통 표지판의 단순성때문에 적대적 공격을 숨기기가 어렵다.
- 2. 실제 교통표지판 인식 상황에서는 노이즈나 환경이 제한되어있지 않다.
- 3. 도로교통 표지판은 자율주행 안전에 있어 아주 중요한 역할을 맡고 있다.
- 4. 자율주행 차량에 대한 직접적인 공격보다 판단을 내리는 대상인 객체에 대한 공격이 더욱 쉽다.
약간의 의역을 보태었지만, 전체적인 맥락은 위와 같습니다.
1. 도로교통 표지판의 단순성 때문에 적대적 공격을 숨기기 어렵다? 아시다시피 도로교통 표지판은 운전자가 직관적으로 그 의미를 빠른 시간내에 알 수 있도록 단순화되어 있습니다. 대표적으로 'STOP' 신호의 경우 빨간 배경에 하얀 글자가 전부이죠. 이러한 배경조건에서
$\min D(x+\delta,x), s.t. f_{\theta}(x+\delta) = y^{*}$ 의 adversarial attack goal 의 minumum perturbation $\delta$ 를 찾기는 상당히 어렵습니다. 이는 일반적으로 작은 perturbation 일수록 인간의 지각적 능력에 의한 탐지가 어렵다는 가정에 기초한 내용입니다. 이를 보다 이론적으로 살펴본다면, 다음과 같은 두 개의 사진이 있습니다.
왼쪽 그림에서 빨간색 네모가 그려진 부분에 대해 무엇이 달려졌는지 육안으로 구별이 어려울 것입니다. 반대로 오른쪽 그림에서는 상대적으로 흰색 픽셀값들이 변화된 것을 쉽게 알아차릴 수 있습니다. 효율적인 Adversarial Attack 이라하면, network를 fooling 할 수 있는 그 performance도 중요하지만 이를 탐지하지 못하도록 하는 'Imperceptibility' 도 상당히 중요한 평가요소 중 한가지입니다. Image processing 의 contrast masking theory 에 따르면, 인간의 시각은 편차가 적은 픽셀 지역에 민감하다고 합니다. 이 말인 즉슨, 무지개 위에 흰점 하나를 찍는 것보다 검은 바탕에 흰점을 찍을때가 인간의 입장에서 더 알아차리기 쉽다는 것입니다. [Towards Imperceptible and Robust Adversarial Example Attacks against Neural Networks, AAAI 2018] 논문에서는 이 'Imperceptibility of Adversarial Example Attacks' 라는 관점을 다음과 같은 수식으로 정의하고 있습니다.
주어진 이미지 $x_{i}$ 가 있을때, 각 픽셀 값들의 SD(Standard Deviation) 을 계산합니다. (이때 n은 mask의 크기입니다, n=3 이면 3x3 mask로 주변 8개의 픽셀들간의 표준편차를 계산합니다) 높은 편차를 가진 지역일수록 섭동에 민감하지 않고, 적은 편차를 가진 지역일수록 섭동에 민감함으로, 편차와 민감성(Sensitivity) 는 역순의 관계에 있습니다.
자세히 설명하려다보니 너무 깊게 들어간것 같습니다. 이 이론을 설명드린 이유는 단순히 도로교통표지판은 상대적으로 픽셀들이 low variance 에 편향되어 있어 작은 Perturbation $\delta$ 에 비교적 민감한 Object 라는 것입니다. 따라서 Imperceptibility를 충족시키기 어렵기 때문에, 본 논문의 저자들은 표지판을 'Subtle(흐리게 만들고), Graffiti(낙서처럼 보이게 하고), Art(스티커를 붙이고)' 등 현실적으로 발생가능한 상황을 가정하여 인간으로 하여금 '적대적 공격이라고 알아차리지 못하게' 착각을 불러 일으키는 것입니다. 본 논문에서는 다음과 같이 표현합니다.
We designed our perturbations to resemble graffiti, a relatively common form of vandalism.
2. 실제 교통표지판 인식 상황에서는 노이즈나 환경이 제한되어있지 않다. 많은 adversarial attack algorithms이 적용 가능한 노이즈의 레벨을 설정하거나 노이즈가 적용되는 지역 또는 환경을 제한하는 경향이 있습니다. 하지만 자율주행을 하는 차량 입장에서 주변의 많은 조건들을(빛, 속도, 거리, 각도 등) 모두 제한하는 것은 불가능합니다. 따라서 Physical-space 에서 adversarial attack은 그 환경에 제약이 있지 않기 때문에 공격들이 상대적으로 적용되기 쉽다는 내용입니다.
3. 도로교통 표지판은 자율주행 안전에 있어 아주 중요한 역할을 맡고 있다. 아시다시피 자율주행은 시스템이 인간을 대신하여 상황 판단을 하도록 설계된 하나의 시스템입니다. 하지만 이 시스템의 판단 근거가 되는 '도로 교통 표지판 인식' 에 문제가 생긴다면 이는 곧 운전자의 안전과 직결됨을 의미합니다.
4. 자율주행 차량에 대한 직접적인 공격보다 판단을 내리는 대상인 객체에 대한 공격이 더욱 쉽다. 구조적으로 차량의 전체 시스템을 이해하고 그 네트워크에 접속하여 악의적인 프로그램을 실행시키는 것보다는, 그 판단의 근거가되는 객체를 혼동시키는 것이 직관적으로 더욱 쉬운 공격 방법입니다. 예를 들어, 아주 맛있는 음식을 만들기 위해 그 레시피를 완벽하게 이해하는 것도 중요하지만 좋은 재료를 쓴다면 맛을 내기 더 쉬울 것입니다.
◎ Physical World Challenges
본 논문의 목적은 Digital space가 아닌 Physical-World 에서도 사용가능한 강건한 섭동(Robust Perturbation)을 생성하여 기존의 분류기를 오작동 시키는 것이 목표입니다. 그렇다면 먼저 Digital과 다르게 Physical world에서 고려해야 할 점에 대해 알아보아야 합니다.
* 환경 조건
Physical attack은 주변 환경이 변하더라도 지속적으로 그 분류기를 공격할 수 있어야합니다. 예를 들어, 자율주행차의 경우 객체에 대한 모습이 정적이지 않고 '거리(Distance)' 와 '각도(Angle)' 에 따라 그 배경을 포함하여 객체의 정보값들이 지속적으로 변경될 것입니다. 심지어 이 값은 조도 값에 따라서도 변화될 수 있습니다 (밤, 낮)
* 공간 조건
객체는 물론 배경 정보 즉, 공간 정보에 대한 값도 거리와 각도에 따라 지속적이게 변할 것입니다. 인간의 눈과 달리 주변 정보에 민감한 분류기는 이러한 변화가 큰 정보값들을 충분히 고려해야합니다.
* Imperceptibility 에 대한 물리적 한계성
Dataset 이 정해진 정적인 환경에서 그 분류기에 대한 성능은 상당히 General합니다. 즉, 이 분류기가 어떠한 센서를 사용할 것이라는 하드웨어적인 제약은 존재하지 않습니다. 다만, most of .. 대부분이라는 표현으로 일반적인 상황을 가정하고 설명합니다. 하지만 물리적 공간에서 이미지 분류를 수행하는 센서에는 수 천가지 종류가 있으며, 이 성능에 따른 한계점도 분명히 존재할 것입니다.
* 제작 오류(fabrication error)
실제 물리적 공격을 수행하기 위해서는 이를 인쇄(Print) 하거나, Digital Link를 통해 분류기에 혼동을 일으킬 수 있는 적대적 섭동을 게시합니다. 하지만 인쇄하는 과정에서 프린터가 RGB 색조가 아닌 다른 영역의 색을 포함할 수 없다면 인쇄 시 누락되는 정보가 생길 것입니다. 이는 Digital 과 Physical 에서 서로 다른 결과를 이끌어내는 원인 중 한 가지 입니다.
◎ Optimization Problem
전통적인 관점에서 단일 이미지에 대한 적대적 공격의 Optimization Problem을 서술하면 다음과 같습니다. H는 distance function이며 $f_{\theta}$ 는 분류기(Classifier), $x$ 는 원본 이미wl, $\delta$ 는 Perturbation, $y$는 원본 이미지의 라벨, $y^{*}$ 는 공격에 의해 변경된 라벨입니다. 따라서 위 수식을 풀이하면, 원본 이미지 $x$ 에 적대적 섭동 Perturbation $\delta$ 를 삽입한 적대적 이미지 $x+\delta$ 와 원본 이미지 $x$와의 distance function 값이 최소화 되도록한다. 단, 분류기에 의해 결정되는 라벨 값 $y$ 는 섭동이 추가된 경우 $y^{*}$ 으로 바뀌게 된다.
한 마디로, "눈에 띄지 않도록 가장 적은 섭동을 추가하여 분류기의 결과값을 강제적으로 변하게 만든다" 입니다.
여기서 Imperceptibility는 $min H(x+\delta,x)$ 의 distance function인 H 에 의해 결정되며 섭동 $\delta$ 를 잘 선택하는 것이 핵심입니다. 그렇다면 $\delta$는 어떻게 잘 선택하나요??
네, 다음과 같은 Lagrangian-relaxed form 을 이용해 계산하게 됩니다. 이때 수식의 $\lambda$는 Hyper-parameters, J는 loss function이며 p는 norm을 뜻합니다. (p=2, $L_{2} norm$). 위 이론에 대한 자세한 설명은 생략하겠습니다.
본 논문에서는 위와 같은 Optimization Problem 에 근거하여 다음과 같이 Physical-world 의 한계점을 극복합니다.
1. Random Crop, Change the brightness, add spatial transformation
데이터셋을 Crop 하거나 밝기값을 변경하고 공간 정보 변형(Rotating, Shift 등)을 적용하여 물리적 공간에서 생겨날 수 있는 예상 가능한 다양한 정보를 많이 습득 할 수 있도록 data augmentation 합니다. 이 부분은 개인적으로 물리적 공간의 한계점을 서술할 당시 제시한 조건의 당위성에 비해 해결방법이 단순하다고 생각합니다. 끼워 맞춘 느낌이랄까...
2. 대상 객체에만 적용 될 수 있도록 공격 지역을 제한한다.
다양한 배경환경에서 도로 교통 표지판을 공격 대상으로 하기 위해 'Mask' 라는 개념을 활용합니다. 이 Mask는 주어진 이미지 값에서 도로 교통표지판이 있는 지역을 계산하는 알고리즘입니다. Matlab 또는 openCV 를 활용한다면 아주 간단하게 구현 가능한 기능입니다. 저자들은 실험적으로 이 Mask의 위치에 따라 공격의 성능 편차가 생기는 것을 발견하였는데, 주어진 이미지 중에서도 Weak Areas 를 선택하여 공격하였습니다. 이 Mask Position을 계산 하기 위해서 $L_{1} Regulaizer$ 를 사용했다고 하는군요.
3. 제작 오류(fabrication error)를 방지하기 위해 Non-Printability Score(NPS) 를 추가적인 term으로 활용합니다.
NPS term은 쉽게 말하면 인쇄해도 색의 값에 손실 여부를 판단하는 척도 정도로만 생각해주시면 됩니다. 이 term을 이용하여 위조된 이미지 $x^{*}$ 이 인쇄 가능한 color영역에 있음을 보장해줍니다.
따라서 공간정보를 제한한 Robust Physical-world attack의 Perturbation $\delta$ 은 다음과 같은 수식으로 계산됩니다.
◎ Experiments
실험은 Stationary Tests, Drive-By Tests 두 가지로 나뉘어 시행됩니다. 쉽게 말하면 실내 테스트, 실외 테스트입니다. 실내,실외 테스트에서는 고안된 알고리즘의 성공률을 다음과 같은 metric으로 계산합니다.
수식의 설명은 $A(c^{d,g})$ 는 공격이 적용된 adversarial images 를 뜻하며 d,g 값은 각각 distance 와 angle을 뜻합니다. 여기서 $\cap f_{\theta}(c^{d,g})=y$ 가 있는 것은 distance와 angle에 따라 그 label값 $y$가 변하지 않을 때 공격이 적용된 이미지의 라벨이 $y^{*}$ 으로 바뀌어야 공격이 성공했다고 봐야하기 때문입니다.
아래는 실내, 실외 테스트의 실험 결과입니다.
보시는 바와 같이 Attack Success rate가 100% 에 가까우며 그 외에도 다양한 이미지 분류에서 분류기들이 거리와 각도에 따라 결과값들이 변하게 되는 양상을 기술하였습니다. 자세한 Experimental results는 논문을 참조바랍니다.
본 논문은 Physical space에서 적용 가능한 Black-box 기반의 공격기법을 제안함으로써, 물리적인 공간에서도 adversarial attack이 적용 가능함을 시사하는 논문입니다. 그 기술적인 내용보다는 취약성을 알리는 점에서 그 의미가 크며, 특히 자율주행차를 대상으로 풀어나가는 story-telling은 Deep learning모델이 adversarial attack에 의해 취약하다는 점을 더욱 부각시켜주었던 것 같습니다. 더 나아가 이 논문은 security-sensitive한 모든 application에서 adversarial attack에 대한 검증이 필요충분 조건이 될 수 있음을 보여줄 수 있다고 생각합니다.
RP2 논문 : https://arxiv.org/pdf/1707.08945.pdf
'적대적 공격(Adversarial Attack)' 카테고리의 다른 글
적대적 공격(Adversarial Attack)과 방어 방법(Defense Mechanism) 소개 (0) | 2022.01.23 |
---|---|
[PyTorch] 적대적 공격(Adversarial Attack) - FGSM/PGD (1) | 2021.07.02 |
Defense-GAN : Protecting Classifiers Against Adversarial Attacks USING Generative Models (2) | 2020.01.20 |
Machine Learning 기반 Black-Box Attack (0) | 2019.06.07 |
적대적 공격 동향(Adversarial Attacks Survey) (2) | 2019.06.02 |