본문 바로가기
AI/AI기초

AI의 약점을 파헤치다: 적대적 공격(Adversarial Attack)의 모든 것

by 짐승 2024. 11. 15.
728x90
반응형

 

 인공지능(AI)에서 '적대적 공격'(Adversarial Attack)은 AI의 오작동을 유발하는 고도의 기술로, 인공지능의 취약점을 이용해 그 결과를 왜곡시키는 행위입니다. 적대적 공격은 주로 이미지 분류, 객체 탐지 등과 같은 영역에서 사용되며, 잡음이나 특정한 패턴을 이미지에 추가해 AI의 인식을 혼란스럽게 만듭니다.

 

가장 많이 드는 예시가 위와 같은 판다와 노이지를 섞은 예시입니다.

 

다른 예를 하나 들어볼까요?

 

 객체 탐지 기술에서는 특정 문양이 그려진 티셔츠를 입거나 특수 안경 또는 스티커를 활용해 AI의 탐지 정확도를 낮출 수 있습니다. 이러한 방식으로 AI가 인식해야 할 사물을 왜곡하거나 잘못된 객체로 인식하게 만들 수 있죠

 

 

실제 사례로는 MIT와 IBM 연구팀이 개발한 '적대적 패션'(Adversarial Fashion) 프로젝트가 있습니다. 이 프로젝트에서는 특정 패턴이 프린트된 티셔츠를 이용해 AI 모델이 사람을 탐지하지 못하게 했습니다.

 

또한, 특정한 빛을 쏘아 AI의 이미지 인식을 방해하는 방식도 사용되며, 이는 2019년 중국 연구팀이 발표한 연구에서 드론의 객체 탐지 시스템을 혼란스럽게 하는 데 성공한 사례도 있습니다.

 

이러한 현상이 일어나는 이유는, ai의 학습에 대해서 이해해야 하는데, AI가 사물을 인식할 때는 사전 학습된 라벨을 통해 특정 조건에서 인식한다는 사실을 먼저 이해하고 출발하죠.

 

하지만, 이러한 데이터 간의 애매한 경계선에서 적대적 공격이 발생하면 AI는 예상치 못한 오류를 범할 수 있습니다. 예를 들어, 미묘한 픽셀의 변화만으로도 AI가 특정 이미지를 완전히 다른 객체로 인식하게 만들 수 있습니다.

 

AI 모델의 공격방법

 

이는 AI 모델이 '화이트 박스'(White Box), '블랙박스'(Black Box), 또는 '그레이 박스'(Gray Box) 방식으로 분류되어 공격당할 수 있기 때문입니다.

 

화이트 박스 공격은 AI 모델의 내부 구조와 파라미터를 완전히 이해하고 있는 상태에서의 공격으로, 예를 들어, 딥러닝 모델의 가중치와 네트워크 구조를 알면 공격자가 특정 입력에 대한 모델의 출력을 정확히 예측하거나 원하는 방향으로 조작할 수 있습니다. 실제 사례로, 2018년에 발표된 연구에서는 화이트 박스 접근을 통해 자율주행차의 도로 표지판 인식을 혼란스럽게 만드는 데 성공한 바 있습니다.

 

블랙 박스 공격은 AI의 내부 구조를 전혀 알지 못한 채 출력값을 기반으로 공격을 시도하는 방식입니다. 대표적인 예시로는 넷플릭스 추천 시스템을 공격하여 사용자의 영화 선호 데이터를 추출하려는 시도가 있었죠. 실제로 이 공격은 모델의 내부 매개변수를 몰라도 출력값의 패턴을 분석함으로써 아예 정보가 없이 공격이 가능하다는 사례였고

 

그레이 박스 공격은 화이트 박스와 블랙 박스의 중간 형태로, 모델의 일부 정보만을 알고 공격하는 방식입니다. 예를 들어, 모델의 대략적인 구조나 학습 데이터의 종류 정도만 알고 있을 때 이를 활용해 공격을 시도하는 것입니다. 실제로, 보안 연구자들은 이러한 그레이 박스 접근법을 통해 상용화된 이미지 인식 모델을 혼란스럽게 만드는 실험을 성공적으로 수행한 바 있습니다.

모델 전도(Model Inversion)

 

 모델 전도'(Model Inversion)는 AI 모델의 학습 데이터에서 원래의 입력 데이터를 재구성하려는 공격 방식입니다. 이를 통해 개인 정보를 추출하거나 학습에 사용된 데이터의 민감한 정보를 유출시킬 수 있습니다. 실제 사례로는 2019년 한 연구에서 얼굴 인식 모델을 공격하여 사용자의 얼굴 이미지를 복원하는 데 성공한 경우가 있습니다. 

중독 공격(Poisoning Attack)

 

중독 공격(Poisoning Attack)은 AI 모델의 학습 과정에서 악의적인 데이터를 삽입하여 모델의 성능을 저하시킬 수 있는 공격입니다. 중독 공격의 예로는 2020년에 발표된 연구에서 독일의 한 연구팀이 자율주행차의 이미지 인식 시스템에 잘못된 데이터를 삽입하여 도로 표지판을 잘못 인식하게 만든 실험이 있습니다.

 

이러한 공격은 학습 과정 중에 악의적인 데이터를 삽입하여 모델이 잘못된 패턴을 학습하게 만듦으로써, 실제 환경에서 오작동을 유도하는 것입니다. 이러한 중독 공격의 한 예로는 크라우드 소싱 플랫폼에서 오류 데이터나 악의적인 데이터를 대량으로 투입하여 AI 모델의 성능을 저하시켜 공격하는 방법이 있습니다.

 

대표적인 예시로는 마이크로소프트의 챗봇 '테이(Tay)' 사건이 있습니다. 악의적인 사용자들이 테이에게 불량 데이터를 입력하여 인종차별적인 발언을 하도록 만든 사례로, 히틀러를 유대인을 사랑하는 사람으로 만들거나 국내에서는 챗봇인 이루다가 일간베스트의 공격을 받았던 사례가 유명합니다. 

 

적대적 훈련(Adversarial Training) 

이러한 적대적 공격에 대응하기 위해,  AI는 '적대적 훈련'(Adversarial Training)'은 적대적 공격에 대처하기 위해 AI 모델을 공격 시나리오에 노출시키며 학습하는 기법입니다. 

 

실제로, 구글은 적대적 공격 및 방법 기법들을 연구하는 자사의 오픈소스 소프트웨어 라이브러리에 CleverHans라는 이름을 붙이고 적대적 훈련을 통해 자율주행 차량의 객체 탐지 성능을 향상하거나, 공격에 더 견고한 모델을 구축하는 데 열을 올리고 있습니다.

반응형