앤트로픽, 동일 모델 이중 출시…사이버보안 역량 개방 수위 어디까지

앤트로픽이 2026년 6월 9일 클로드 페이블 5(Claude Fable 5)와 클로드 미토스 5(Claude Mythos 5)를 동시 공개했다. 두 모델은 동일한 기반 모델을 공유하지만, 페이블 5는 사이버보안·생물학·화학 관련 쿼리를 구형 모델 클로드 오퍼스 4.8(Claude Opus 4.8)로 우회하는 가드레일(guardrail)을 장착한 공개 버전이고, 미토스 5는 해당 가드레일이 일부 해제된 제한 접근 버전이다. 이중 출시 구조는 강력한 AI 역량의 개방 수위를 선별적으로 통제하는 방식이 업계 표준으로 자리 잡고 있음을 보여준다.

같은 모델, 다른 열쇠

페이블 5와 미토스 5는 아키텍처 상 동일한 모델이다. 차이는 가드레일의 유무에 있다. 앤트로픽 공식 발표에 따르면, 페이블 5의 가드레일은 사이버보안·생물학·화학 관련 쿼리를 탐지하면 메인 모델 대신 오퍼스 4.8이 응답하도록 자동 전환한다. 증류(distillation), 즉 대형 모델의 응답을 학습 데이터로 삼아 소형 모델을 훈련하려는 시도가 감지될 때도 동일하게 작동한다.

가드레일 발동 비율은 전체 세션의 5% 미만이다. 앤트로픽은 95% 이상의 세션에서 폴백(fallback)이 전혀 발생하지 않는다고 밝혔으며, 이 경우 페이블 5의 성능은 미토스 5와 사실상 동일하다고 설명했다. 다시 말해 일반 사용자 대다수는 제약을 체감하지 못하도록 설계됐다.

앤트로픽 제품 관리 총괄 다이앤 펜(Diane Penn)은 "모든 사용 사례에 완벽한 해법이 없더라도 유익한 방식으로 개선을 이어가려 한다"며 "다양한 접근법 중에서 이 방식이 가장 실행 가능하고 최선이라는 결론에 이르렀다"고 밝혔다. 그는 현재의 보호 메커니즘이 과도하게 보수적으로 설정돼 있어 일부 무해한 쿼리도 오퍼스 4.8로 라우팅될 수 있지만, 이것이 현시점에서 모델을 광범위하게 배포할 수 있는 유일한 안전한 방법이었다고 덧붙였다.

미토스 5: '현존 최강 사이버보안 모델'의 제한 배포

미토스 5는 신뢰 접근 프로그램(trusted access program)을 통해 사이버 파트너에게만 제공된다. 앤트로픽은 자사 공식 블로그에서 미토스 5가 현존하는 어떤 AI 모델보다도 강력한 사이버보안 역량을 보유한다고 자평했다. 구체적으로 소프트웨어 취약점 발견·익스플로잇은 물론, 정찰·발견·횡적 이동 등 사이버공격의 복수 단계를 수행하는 에이전틱(agentic) 해킹 역량까지 포함된다.

미토스 5 접근권은 프로젝트 글래스윙(Project Glasswing) 파트너십을 통해 우선 배포된다. 앤트로픽은 미국 정부와 협력해 출시를 진행하고 있으며, 일부 생물학 연구자에게도 접근 권한을 부여했다. 공식 발표문은 "신뢰 접근 프로그램이 준비될 때까지 소규모 고객 그룹에 제한 없는 버전을 제공한다"고 명시해 향후 접근 확대 계획을 시사했다.

앤트로픽이 프로젝트 글래스윙 업데이트에서 밝힌 입장은 현재의 딜레마를 압축한다. "미토스급 역량을 일반 접근으로 안전하게 배포하기 위해 최대한 빠르게 작업 중이다. 이를 위해서는 모델의 사이버 역량이 오용되지 않도록 막는 고도로 견고한 안전장치가 필요한데, 그것은 우리를 포함해 현재 모든 AI 개발사가 아직 개발하지 못한 것이다."

1,000시간 이상의 레드팀(red-team) 테스트에서 범용 탈옥(universal jailbreak)은 발견되지 않았다고 펜 총괄은 강조했다. 하지만 실제 환경에서 가드레일이 얼마나 견고할지는 여전히 검증이 필요하다는 시각도 존재한다.

성능과 가격: Stripe의 하루, 인간의 두 달

앤트로픽은 페이블 5가 소프트웨어 엔지니어링·지식 업무·비전·장기 메모리·생명과학 연구에서 이전 어떤 공개 모델보다 뛰어난 성능을 보인다고 밝혔다. 얼리 액세스 테스트에서 스트라이프(Stripe)는 5,000만 줄 규모의 루비(Ruby) 코드베이스 마이그레이션을 페이블 5로 하루 만에 완료했다고 보고했다. 통상 전체 팀이 두 달 이상 소요하는 작업 분량이다.

생명과학 분야에서는 미토스 5를 활용한 단백질 설계 작업에서 인간 전문가 대비 약 10배의 속도 향상이 확인됐다고 앤트로픽은 설명했다. 결합 부위 선택, 단백질 설계 도구 실행, 오류 복구까지 과학자가 수행하는 모든 작업을 모델이 자율 수행하며, 14개 단백질 표적 중 9개에서 유망한 후보 물질이 도출됐다는 내용도 공식 발표문에 포함됐다.

정렬(alignment) 평가에서 미토스 5의 오정렬 행동 수준은 오퍼스 4.8과 유사한 것으로 나타났다. 앤트로픽은 두 모델이 동일한 기반 모델에서 파생된 만큼 페이블 5의 정렬 수준도 이와 같을 것이라고 덧붙였다.

가격은 입력 토큰 100만 개당 10달러, 출력 100만 개당 50달러다. 미토스 프리뷰(Mythos Preview) 대비 절반 이하 수준이며, 기존 공개 모델 대비로는 약 두 배 수준이다.

IPO 앞둔 두 회사, 같은 길

이번 이중 출시는 앤트로픽만의 선택이 아니다. 오픈AI(OpenAI)도 2026년 4월에 고급 사이버보안 역량을 갖춘 비공개 모델을 출시하고 프로젝트 글래스윙과 유사한 워킹 그룹을 구성한 바 있다. 두 회사 모두 비공개 IPO(기업공개) 신청서를 제출한 상태로, 이르면 올해 공개 기업이 될 수 있다는 관측이 나온다.

투자자를 향한 기술 시연과 규제 당국을 향한 책임 있는 배포 사이에서 균형을 찾아야 하는 압박이 이중 출시 구조를 설계하게 한 배경이기도 하다. 앤트로픽은 미토스급 역량을 가진 모델이 결국 민간·오픈소스 분야 경쟁사에도 등장할 것임을 반복적으로 언급하며, 이를 광범위한 배포의 불가피성을 지지하는 논거로 제시해 왔다.

페이블 5가 실제 환경에서 어느 수준의 안전성을 유지할지, 그리고 신뢰 접근 프로그램이 어떤 자격 요건과 심사 기준으로 운영될지는 아직 공개되지 않았다. 앤트로픽은 "더 유능한 모델들이 앞으로 수개월 내 등장할 것"이라며 안전장치 개선과 오탐(false positive) 감소를 동시에 추진하겠다고 밝혔다.

글. 바이라인네트워크 article-writer