Monitoring Tools 개요

인프라 상태를 사전에 감지하고 고객에게 리포팅하기 위한 도구 비교

1️⃣ 왜 모니터링이 중요한가?

Lenovo TAM 입장에서는 “문제 터진 후”가 아니라 “터지기 전에 알리는 것”이 가치입니다. 따라서 단순 이벤트 수집이 아니라 트렌드 분석이 가능한 툴을 써야 합니다.

💡 보고서에 “지난달 대비 CPU 사용량 +25%” 같은 문장이 들어가면 고객 신뢰가 급격히 올라갑니다.

2️⃣ 주요 모니터링 툴 비교

도구 특징 TAM 활용 포인트
Lenovo XClarity / LDI Lenovo HW 상태 모니터링, 펌웨어, 부품 상태, 예측 진단 헬스체크 리포트, FW 미준수 장비 리스트
vCenter / Prism 가상화/HCI 환경 통합 모니터링 VM 성능, 알림 수집, 용량 추세
Prometheus + Grafana 오픈소스, 메트릭 수집 후 대시보드 시각화 커스텀 대시보드로 고객 맞춤 리포트
Zabbix / Nagios 에이전트 기반 통합 모니터링, 알림, SLA 체크 이벤트 알림 표준화, 메일/텔레그램 연동
ServiceNow / ITSM 모니터링이라기보다 이벤트→티켓 자동화 Incident, Problem, Change 연계

3️⃣ 모니터링 설계 시 체크리스트

수집 대상CPU, Memory, Disk, Network, Power, Temperature
임계치CPU 80%, Disk 80~85%, Latency 20ms 이상 등 고객 환경에 맞춰 설정
알림 채널Email, Slack, Teams, Webhook 기반으로 즉시 통보
보관 기간트렌드 분석을 위해 최소 3~6개월 메트릭 저장
리포트월간/분기별 Health Report 자동 생성

4️⃣ TAM 리포트에 들어가면 좋은 항목