1. 문제 발생 배경
운영 중이던 AWS EC2 Windows Server 2016 인스턴스에서 Systems Manager (SSM) Agent가 시작 직후 자동으로 종료되는 현상이 발생했습니다.
해당 인스턴스는 Active Directory에 조인된 상태였으며, SSM을 통한 원격 관리 기능이 정상적으로 동작하지 않는 상황이었습니다.
2. 문제 발생 순서
- SSM Agent는 설치되어 있었으나, 서비스가 시작 직후 자동 종료되는 현상 발생
* 서비스 수동 시작 시에도 자동으로 종료됨 - 일반적인 조치 시도
* SSM Agent 재설치
* EC2 인스턴스 재부팅
* 메타데이터 아이피 접근 확인
Invoke-WebRequest -Uri http://169.254.169.254/latest/meta-data/ -UseBasicParsing
-> 응답 없음(타임아웃)
* Windows 이벤트 로그 확인 등
→ 모두 문제 해결되지 않음 - EC2Rescue 도구를 통한 로그 수집 시도
* 실행 도중 다음 오류 발생:
Unhandled exception has occurred in your application. ..........
* 핵심 Log 일부
System.NullReferenceException: Object reference not set to an instance of an object.
at EC2Rescue.Util.InstanceMetaData.Get(String path)
at EC2Rescue.Util.InstanceMetaData.get_IsAvailable()
* EC2Rescue 또한 정상 작동하지 않음
3. 문제 해결 절차
1️⃣ Default Gateway 확인
ipconfig /all
→ 실제 Default Gateway는 XXX.XXX.XXX.1로 확인됨
2️⃣ route print 명령어로 Default Gateway가 맞는지 확인
route print
Persistent Routes:
Network Address Netmask Gateway Address Metric
169.254.169.254 255.255.255.255 DefaultGateway 15
169.254.169.250 255.255.255.255 DefaultGateway 15
169.254.169.251 255.255.255.255 DefaultGateway 15
169.254.169.249 255.255.255.255 DefaultGateway 15
169.254.169.123 255.255.255.255 DefaultGateway 15
169.254.169.253 255.255.255.255 DefaultGateway 15
-> 혹시 모르는 상황을 대비해서 현재 라우팅 테이블 백업하는 거 권장
route print > C:\route_backup.txt
3️⃣ 기존 잘못된 경로 삭제
route delete 169.254.169.123
route delete 169.254.169.249
route delete 169.254.169.250
route delete 169.254.169.251
route delete 169.254.169.253
route delete 169.254.169.254
4️⃣ 올바른 Default Gateway로 재등록
route -p add 169.254.169.123 mask 255.255.255.255 XXX.XXX.XXX.1
route -p add 169.254.169.249 mask 255.255.255.255 XXX.XXX.XXX.1
route -p add 169.254.169.250 mask 255.255.255.255 XXX.XXX.XXX.1
route -p add 169.254.169.251 mask 255.255.255.255 XXX.XXX.XXX.1
route -p add 169.254.169.253 mask 255.255.255.255 XXX.XXX.XXX.1
route -p add 169.254.169.254 mask 255.255.255.255 XXX.XXX.XXX.1
4. 결과
* SSM Agent 정상 기동 확인 (Get-Service AmazonSSMAgent)
* EC2Rescue 로그 수집 성공
* AWS 메타데이터 접근 정상화
* Systems Manager 세션 복구 완료
이 글이 비슷한 장애 상황에서 도움 되셨다면 댓글/공감 부탁드립니다 :)
앞으로도 실무에서 겪은 생생한 이슈와 해결 노하우를 꾸준히 공유하겠습니다.
'AWS' 카테고리의 다른 글
AWS EC2 RDP 접속 불가? (ft. EC2Rescue 복구 후기) (0) | 2025.04.21 |
---|---|
Aurora를 이해하는 첫걸음, RDS 클러스터와 인스턴스 차이 (0) | 2025.04.17 |
주저리 잡지식 (0) | 2025.04.16 |
[AWS] LCU-R 소개 (기능 및 사용방법) (0) | 2025.04.01 |
What is Packer? (0) | 2020.10.29 |