자세히 보기

AI 해커로 보안을 강화하다···에이전트 레드팀 구축 5단계

기획
2025.09.189분
인공지능사이버 공격보안

에이전트형 AI는 시스템이라기보다 자율적인 운영자처럼 작동하므로, AI 중심 레드팀 프레임워크로 철저히 스트레스 테스트하는 것이 중요하다.

더 많은 기업이 에이전트형 AI 애플리케이션을 도입하면서 잠재적 공격 표면은 복잡성과 범위 면에서 빠르게 확대되고 있다. 앞서 다룬 바와 같이, AI 모델의 가드레일을 우회하거나, 모델 학습에 활용되는 기존 지식베이스를 오염시키거나, 네트워크 인프라를 지속적으로 탐색해 취약점을 찾는 에이전트를 배포하는 등 다양한 공격 방식이 존재한다. 그러나 여전히 에이전트와 다른 AI 기반 자동화 기술을 방어적 목적으로 활용할 수 있는 가능성은 남아 있다. 기존 레드팀 및 침투 테스트 기법을 AI 환경에 맞게 변형해 적용할 수 있다는 점에서다.

문제는 에이전트형 AI 레드팀이 아직 초기 단계라는 점이다. 지난 7월 발표된 논문에 따르면, 많은 방어용 AI 솔루션 벤더가 생성형 AI 모델 전체를 보호하기보다는 ‘개별 모델의 취약점에 주로 집중하면서, 모델·사용자·환경 간 복잡한 상호작용에서 발생하는 사회기술적 시스템과 출현 행동을 간과한다’는 비판을 받고 있다.

연구진 중 한 명인 ARVA(AI Risk and Vulnerability Alliance) AI 책임자 수바브라타 마줌다르는 AI 레드팀의 짧은 역사적 맥락을 정리하면서, 기존 접근이 다중 에이전트 간 다양한 상호작용, 마이크로 수준의 행동이 대규모 보안 도구와 결합할 때 나타나는 영향, 그리고 모델 빌드 프레임워크 및 소프트웨어 개발 환경 등 배포 맥락을 충분히 고려하지 않는다고 설명했다. 이런 이유로 공격 표면이 기하급수적으로 커졌으며, 잠재적 익스플로잇을 제어하기 위한 새로운 접근이 절실하다.

이를 위해 클라우드 시큐리티 얼라이언스(Cloud Security Alliance, CSA)는 지난 5월 ‘에이전트형 AI 레드팀 실무 가이드(Agentic AI Red Teaming Guide)’라는 방대한 자료집을 발간했다. 연구진 중 한명인 켄 황은 수십 명의 보안 연구자와 협력해, 에이전트형 AI 기반 위협을 모델링하고, 취약점을 수치화하며, 애플리케이션을 테스트하고, 완화 방안을 제시할 수 있는 실용적이고 실행 가능한 레드팀 방법론을 정리했다.

이 가이드에는 12개의 AI 프로세스 범주가 수록돼 있으며, 각 범주에는 다중 에이전트 악용, 환각악용, 권한 및 제어 탈취 등 실제 환경에서 관찰된 다양한 공격 기법이 포함돼 있다. 또한 프롬프트 인젝션(prompt injection)이나 제일브레이킹(jailbreaking) 같은 기존 생성형 AI 보안 위협을 바탕으로, 악의적 에이전트가 단순 보안 조치를 무력화할 수 있는 더 복잡한 상호작용을 다룬다. 각 익스플로잇에는 테스트 요건, 실행 단계, 경우에 따라 레드팀 연습을 위한 예시 프롬프트도 포함돼 있다.

황은 보고서에서 “에이전트형 AI 시스템은 결정론적 행동을 넘어 더 자율적인 의사결정 운영자로 진화하면서 명확한 신뢰 경계가 사라지고 있기 때문에 레드팀이 점점 더 필요하다”고 강조했다. 그는 이어 “다양하고 도전적인 조건에서 에이전트형 AI를 체계적으로 스트레스 테스트해야 개발자가 더 견고한 가드레일과 안전 메커니즘을 마련할 수 있다. 에이전트형 AI는 단순한 프로그램이라기보다 자율적 운영자에 가까우며, 그 복잡하고 상호작용적이며 예측 불가능한 특성을 시험할 수 있는 새로운 레드팀 프레임워크가 요구된다”고 설명했다.

에이전트형 AI 레드팀 훈련의 복잡성

여러 에이전트가 대화 과정에서 상호작용할 때 상황은 특히 심각해진다. 보안 기업 NCC 그룹(NCC Group)에서 AI·ML 보안 책임자인 데이비드 브라우클러는 파운드리 산하 보안 매체 CSO온라인과의 인터뷰에서 “에이전트가 서로 소통할수록 사용자 통제 밖에서 새로운 위험 영역이 생긴다”고 설명했다. 그는 “목표는 애플리케이션이 에이전트로부터 어떤 데이터에 노출되는지, 그리고 위협 행위자가 이를 어떻게 조작해 악성으로 바꿀 수 있는지를 파악하는 것”이라고 말했다.

에이전트형 AI 레드팀 초기의 주요 초점은 프롬프트 인젝션(prompt injection)이었다. 다른 인젝션 기반 공격과 마찬가지로, 겉보기에 무해한 명령을 전달해 각종 악영향을 일으키는 방식이다. 대표적인 사례 중 하나가 ‘에코리크(EchoLeak)’인데, 이는 인젝션을 통해 데이터를 은밀히 탈취한다.

CSA 보고서는 이러한 공격이 발생하는 여러 방법을 상세히 다룬다. 예컨대 에이전트 목표와 지시를 조작하거나, 실시간 지시 변경을 시뮬레이션해 에이전트를 원치 않는 악성 행동으로 유도하는 방식이다. 널리 쓰이는 기법으로는 프롬프트 안에 악성코드를 숨기거나, 지시를 base64 인코딩·유니코드 문자·단순 치환 암호·게이머들의 ‘리트스픽(leetspeak)’ 치환·법률 계약 문구로 포장하는 등 다양한 형태로 변환해 모델의 가드레일을 우회하는 방법이 있다.

황은 이러한 명령이 어떻게 실행되는지 감사 추적(audit trail)을 살펴보고, 레드팀 훈련을 통해 에이전트가 본래 실행 경로에서 벗어나는 과정이나 데이터가 여러 사용자 맥락에서 어떻게 유출되는지를 시뮬레이션할 것을 권고했다.

프롬프트 인젝션의 다양성과 위력은 AI 보안 기업 팬지아(Pangea)의 보고서에서 잘 드러난다. 팬지아는 글로벌 콘테스트를 운영하면서 30만 건의 시도를 기록했는데, 난이도가 점차 높아지는 세 단계의 ‘이스케이프 룸’을 활용한 결과 수많은 취약점과 데이터 유출 및 기타 익스플로잇이 발견됐다. 팬지아의 AI 레드팀 전문가 조이 멜로는 CSO온라인에 “같은 페이로드가 99번 실패하고 1번은 예상치 못한 방식으로 성공한다”라고 전했다.

AI 기반 에이전트형 보안 위협은 새로운 현상이 아니다. OWASP(Open Worldwide Application Security Project)는 모델·애플리케이션 아키텍처와 다중 에이전트의 협업·상호작용에 초점을 맞춘 보고서를 발표했다. 이 보고서는 랭체인(LangChain), 크루AI(CrewAI), 오토GPT(AutoGPT) 같은 범용 에이전트 프레임워크 사용자들이 인프라와 데이터를 어떻게 더 잘 보호할 수 있는지를 검토했다. 다른 OWASP 프로젝트와 마찬가지로, 애플리케이션 개발 수명주기 초기에 보안을 반영하는 데 중점을 뒀다.

그레이 스완 AI(Gray Swan AI)의 앤디 주는 연구팀을 이끌고 에이전트 보안 문제에 관한 논문을 발표했다. 이들은 3월에 22개의 최첨단 AI 에이전트를 44개의 현실적 배포 시나리오에서 시험했으며, 그 과정에서 약 200만 건의 프롬프트 인젝션 공격을 관찰했다. 이 가운데 6만 건 이상이 성공해 “적대자에 맞설 추가 방어책이 필요하다”는 결론을 도출했다. 이 연구는 고위험 공격을 평가할 수 있는 에이전트 레드팀 벤치마크와 프레임워크를 만드는 데 활용됐다. 연구 결과 에이전트는 정책을 자주 위반했고, 적대적 입력을 막지 못했으며, 금융·의료·고객지원 등 다양한 영역에서 고위험 행동을 수행했다. 보고서는 “이들 공격은 모델의 크기·성능·방어 전략과 무관하게 높은 전이성과 일반성을 보였다”고 지적했다.

효과적인 레드팀 활동을 인프라에 적용하기 어려운 이유 중 하나는, 사건을 발견하고 완화하는 방식이 에이전트형 AI의 경우 기존과 다르기 때문이다. 드레즈너 어드바이저리(Dresner Advisory)의 에이전트형 AI 연구원 마일스 수어는 CSO온라인에 “사건 관리 관점에서 에이전트와 기존 공격은 보호해야 할 데이터 검토 측면에서 공통점이 있지만, 생성형 AI는 데이터를 행과 열이 아닌 청크(chunk) 단위로 저장하기 때문에 발견이 더 어렵다”고 설명했다.

또한 시간적 요소도 중요하다. 보안 플랫폼 업체 멘드(Mend.io)의 AI 보안 책임자 바 엘 타요우리는 CSO온라인에 “에이전트형 AI로 인해 취약점과 익스플로잇 사이의 시간 간격이 기하급수적으로 단축됐다”고 경고했다.

에이전트형 레드팀을 구현하기 위한 5단계

1. 태도를 바꿔라

에이전트형 레드팀의 가장 큰 과제는 방어 관점을 새롭게 설정하는 일이다. 수어는 “데이터베이스 관리자가 모든 데이터에 완전한 접근 권한을 갖던 시대는 끝났다. 우리는 데이터에 대해 새로운 태도를 가져야 하며, 그 비즈니스적 중요성을 온전히 이해해야 한다”고 말했다. 브라우클러는 AI 모델이 입력과 출력을 어떻게 오용하는지를 탐지하기 위해, 버프 스위트(Burp Suite) 같은 일반적인 펜테스팅 도구를 활용할 수 있다고 조언했다. 그는 “맥락이 핵심이며, 크레센도(Crescendo) 공격처럼 탈옥된 에이전트 행동을 자동화해 테스트하는 데 버프는 여전히 유용하다”라고 설명했다.

블리자드 엔터테인먼트 애플리케이션 보안 부서 책임자 커트 호프만은 AI 에이전트가 “기존 펜테스팅을 대체하는 것이 아니라, 역량을 배가시키는 요소”라고 평가했다. 그는 “AI 에이전트는 지루하고 반복적인 레드팀 작업을 맡기고, 창의적이고 새로운 공격 방법은 인간이 찾아야 한다. 에이전트는 인간과 협력할 때 가장 잘 작동하며, 공격 규모를 전례 없는 수준으로 확장할 수 있다”고 말했다.

AI 전략가 케이트 오닐은 에이전트형 방어를 달리 바라볼 필요가 있다고 지적했다. 그는 “생성형 AI 시스템이 실제로 어떻게 사용되는지 테스트해야 한다. 실무에서 발생하는 대부분의 AI 보안 실패는 에이전트를 누군가 해킹해서가 아니라, 사용자가 지나치게 신뢰하거나 안전 장치를 우회하는 방법을 찾으면서 맹점이 생겼기 때문”이라고 설명했다. 이어 “레드팀은 필요하지만 충분하지 않다. 가장 효과적인 프로그램은 전통적 보안 테스트를 참여형 설계 세션, 이해관계자 영향 맵핑과 결합하는 것이다. 중요한 건 ‘이걸 깰 수 있는가?’가 아니라, ‘이 시스템이 설계대로 작동했을 때 누가 피해를 보는가?’를 이해하는 것”이라고 강조했다.

브라우클러는 현 상황을 “증상만 보고 병을 치료하지 않는다면, 물총으로 파도를 막는 것과 같다”라고 표현했다.

2. 가드레일과 거버넌스를 파악하고 지속적으로 테스트하라

많은 에이전트 기반 익스플로잇은 보안 가드레일을 교묘히 우회해 악의적 행동을 유도한다. CSA 보고서는 이러한 익스플로잇이 어떻게 작동하는지, 어떤 프롬프트가 이를 회피하는 데 쓰일 수 있는지, 이를 방지하려면 어떻게 해야 하는지를 상세히 다룬다.

가트너 애널리스트 톰 코쇼는 CSO온라인에 “가드레일을 클라우드에 둘지, 워크플로우에 둘지, 혹은 둘 다에 배치할지 파악하는 것이 중요하다. AI 에이전트를 프로덕션 환경에 배포하기 전에 적절한 테스트를 반드시 수행해야 하며, 필요한 거버넌스·통제·관찰성을 확보해야 한다. 환경은 언제든 동적으로 변할 수 있기 때문”이라고 말했다.

참고할 만한 시도로는 포레스터의 ‘AEGIS(Agentic AI Guardrails for Information Security)’가 있다. 이는 거버넌스, 데이터 및 애플리케이션 보안 전반을 아우르며, 제로 트러스트 아키텍처까지 포함하고 있어 고려할 요소가 많다.

3. 팀 구성의 폭을 넓혀라

조직이 레드팀 인력을 더 다양한 역량으로 구성할 수 있다는 점은 희망적이다. 팬지아의 멜로는 “AI 레드티머에게 필요한 건 영어, 혹은 테스트 대상 언어를 아는 것뿐이다. 대학 역사 전공자도 언어를 이용해 모델의 행동을 조작할 수 있다”고 말했다.

4. 해결책의 범위를 확장하라

칼립소AI(CalypsoAI) 사장 제임스 화이트는 CSO와의 인터뷰에서 “실행 중인 생성형 AI 모델은 질문을 던지기 전까지는 위협이 되지 않는다. 그러나 에이전트는 이를 우회할 수 있으며, 전형적인 시간적 인과 사슬을 무너뜨릴 거의 무한한 방법을 찾아낸다”고 설명했다. 이는 곧 조직 전반에서 무슨 일이 일어나고 있는지를 더 넓은 시각으로 살펴야 한다는 의미다. 과거의 인과적 습관을 깨고, 잠재적 위협을 전체의 일부로 바라봐야 한다.

사이버보안 솔루션 업체 래드웨어(RADware) 위협 인텔리전스 책임자 파스칼 지넨스는 보고서에서 “AI는 더 이상 단순한 도구가 아니다. 시스템의 참여자이며, 코드의 공동 작성자이고, 의사결정자이며, 점점 더 적대자가 되고 있다”고 분석했다. 그는 이어 “적대자의 관점에서 게임은 이미 달라졌고, 이제 승산은 그들에게 있다. 시간, 인재, 예산의 제약을 더 이상 받지 않는다”고 전했다.

오닐은 “CSA 보고서는 기술적 기반을 제공하지만, 인간 중심적 요소야말로 그것을 실제 피해를 막는 프로그램으로 바꾼다”고 강조했다.

5. 최신 도구와 기법을 고려하라

OWASP는 “안전한 에이전트형 시스템을 구축하려면 개별 구성 요소를 보호하는 것을 넘어, 보안을 아키텍처 자체에 내재화하는 총체적 접근이 필요하다”고 지적했다. 이를 위해 여러 개발 도구가 제시되었는데, 일부는 오픈소스 프로젝트로, 에이전트도조(AgentDojo), 에이전트릭 레이더(Agentic Radar), 에이전트 세이프티벤치(Agent SafetyBench), 후지쯔 벤치마킹 데이터셋 등이 있다. 최근에는 에이전트 간 통신을 모니터링하는 오픈소스 도구 ‘에이전트게이트웨이(Agentgateway)’가 발표되기도 했다.

또한 상용 도구 중에도 레드팀 구성과 자동화를 지원하는 솔루션이 있다.

  • AI 보안 플랫폼 업체 칼립소AI(CalypsoAI)의 인퍼런스 플랫폼은 에이전트형 레드팀 기능을 포함한다. 제품 책임자 킴 비엘러는 “레드팀은 모델 개발 단계, 대규모 애플리케이션 개발 단계, 그리고 최종 코드 프로덕션 이전 이 세 시점에서 특히 중요하다”고 말했다.
  • 크라우드스트라이크의 AI 레드팀 서비스는 에이전트형 레드팀 기능과 함께 포괄적 AI 보호 기능을 제공한다.
  • SPLX의 AI 플랫폼은 생성형 AI 인프라 전반에 걸친 대규모 리스크 평가를 수행하며, 수천 건의 상호작용을 자동화된 레드팀 방식으로 시뮬레이션한다.
  • 마이크로소프트(MS)는 AI 레드팀의 오픈소스 툴킷인 파이썬 기반 위험 식별 도구를 애저 AI 파운드리에 통합했다. 이 도구는 적대적 사용자 행동을 시뮬레이션하고 자동 스캔을 통해 탐지 성공률을 평가한다.
  • 세일즈포스는 자사 애플리케이션 인프라를 위한 자동화된 레드팀 프레임워크를 지원한다.
  • AI 보안 전문 기업 히든레이어(HiddenLayer)는 독자적인 에이전트형 레드팀 자동화 도구를 제공한다.

마지막으로 AI 아키텍트이자 보안 연구원 수산나 콕스는 자신의 블로그에서 “AI 에이전트는 다르다. 공격 표면은 지금까지 본 어떤 AI 시스템과도 비교할 수 없을 정도로 독특하다. 이들은 역사상 어떤 소프트웨어 시스템에도 부여된 적 없는 권한을 받고 있으며, 그럴 만한 이유도 있다. 에이전트 아키텍처가 공격 표면을 결정한다”고 경고했다.
dl-ciokorea@foundryco.com