선도적인 기업용 지상 교통 플랫폼 Gett는 첨단 기술을 통해 기업 직원들이 더 간단하고 안전하며 효율적으로 이동할 수 있게 지원합니다. 이 기업의 모빌리티 소프트웨어는 고객들이 선호하는 차량 호출 앱과 자동차 서비스들을 단일한 SaaS 플랫폼에 결합하여, 기업이 팀원들을 이동하는 방식을 변화시키고 있습니다. 2010년 Gett는 최초의 온디맨드 B2B 모빌리티 서비스 중 하나를 출시했으며, Fortune 500대 기업 중 1/3이 이 기업의 소프트웨어를 사용하고 있습니다.

전 세계적으로 원활하게 운영하려면 신속한 인시던트 관리가 중요합니다. 클라우드의 마이크로서비스 아키텍처가 동적이기 때문에, 운전자와 탑승자에게 영향을 미치는 성능 문제를 이해하고 해결하는 것은 복잡한 일이지만, 뉴렐릭의 옵저버빌리티(observability, 관찰성)는 팀이 업무를 완수하고 우수한 디지털 경험을 제공할 수 있도록 하는 것 이상을 지원하고 있습니다.

SLA 99% 충족

Gett의 주요 도전과제 중 하나는 예기치 않은 트래픽 급증 시, 운전자와 탑승자가 항상 기술을 신뢰하며 사용할 수 있도록 서비스 수준을 99% 이상으로 유지하는 것입니다.

이러한 시나리오에서는, 기술 지원 및 인시던트 관리 팀이 포함된 연구 개발 팀이 고객 지원 팀과 긴밀하게 협력해, 기술이 어떻게 개발, 배포 및 모니터링되고 운전자와 탑승자에게 어떤 영향을 미치는지를 파악하는 것이 중요합니다.

모든 사람이 어떻게 실시간으로 디지털 서비스를 경험하는지를 포괄적으로, 또 신속하게 이해하는 것이 가장 중요합니다. 하지만 5년 전 Gett는 적절한 기술 지원 팀이 없었고, 적절한 모니터링 tool을 사용하는 정확한 인시던트 관리 프로세스도 마련되어 있지 않았습니다.

Gett의 글로벌 기술 지원 관리자인 대니 콘스탄티노프스키(Dani Konstantinovski)는 “문제가 발생하면, 현장에서 그 소식을 전해들었다”며 "운전자가 고객 관리 팀에 전화를 걸면, 고객 관리 팀이 우리에게 연락을 하는 식이었다. 문제를 해결하는 최선의 방법은 아니었다”고 말합니다.

에스컬레이션이 필요한 중대한 문제가 발생할 때마다 콘스탄티노프스키와 밀접하게 협력하는 글로벌 인시던트 관리자인 리오르 아브니(Lior Avni)는 “내 생각엔 낙제 수준이었다"고 덧붙입니다.

이후 Gett는 탁월한 고객 경험을 제공하기 위해 상당한 시간과 자원을 투자했습니다.

아브니는 “분류, 서비스 매핑, 누락된 알람 등 많은 문제가 발생했고, 수년 동안 한 가지씩 모든 것을 해결해왔다”며 “그래서 지금 남은 두 가지 과제는 평균이해시간과 평균감지시간을 줄이는 것”이라고 설명합니다.

팀이 연중무휴로 24시간 근무를 하는 상황에서는 문제 해결에 소요되는 평균 시간을 줄이는 것이 중요합니다. 하지만, 콘스탄티노프스키가 밝힌 것처럼 운영 환경이 방대하기 때문에 실질적인 문제에 부딪칩니다. “시스템에 거의 200개의 마이크로서비스가 존재하는 마이크로서비스 아키텍처를 사용하고 있기 때문에, 무언가가 다운되면 보통 나비 효과와 연쇄 반응이 발생한다. Gett 내부적으로는 ‘화재’라는 용어를 사용하는데, 이를 진압하려면 소스를 빨리 찾아야 한다.”

아브니는 “운영 시스템의 범위가 계속 증가하고 있다”며 “문제는 너무 많은 서비스와 장비를 모니터링해야 하는 것과 체계적으로 작업을 완료하는 것”이라고 덧붙입니다.

마이크로서비스의 옵저버빌리티 문제에 대한 해결책

AWS를 사용하는 Gett는 과거 다양한 모니터링 tool을 사용했습니다. 이러한 tool들은 어느 정도 도움을 주었지만, 정확히 필요한 수준에는 미치지 못했습니다. 마이크로서비스들을 실시간으로 완벽하게 관찰할 수 있다는 점이 Gett가 뉴렐릭을 선택한 이유입니다. 그리고 인시던트를 보다 효과적으로 관리하고 강력한 디지털 고객 경험을 제공하기 위해, 뉴렐릭의 사용을 확대했습니다.

콘스탄티노프스키는 “뉴렐릭 덕분에 일이 훨씬 수월해졌다. 뉴렐릭을 보면 정확히 어떤 서비스가 영향을 받았는지, 이유는 무엇인지, 무엇을 해야 하는지 이해하고, 문제를 명확하게 파악할 수 있다”며 “마이크로서비스 중 하나가 다운되면, 어디서 무엇이 영향을 받는지 정확히 알아야 한다. 뉴렐릭은 그를 위한 옵저버빌리티를 제공한다. 뉴렐릭이 없다면 하기 어려운 일”이라고 말합니다.

“마이크로서비스 중 하나가 다운되면, 어디서 무엇이 영향을 받는지 정확히 알아야 한다. 뉴렐릭은 그를 위한 옵저버빌리티를 제공한다. 뉴렐릭이 없다면 하기 어려운 일이다.”

대니 콘스탄티노프스키(Dani Konstantinovski), 글로벌 기술 지원 관리자, Gett

서비스를 관리하는 데 완전한 옵저버빌리티가 중요한 역할을 하기 때문에, 애플리케이션 모니터링에 뉴렐릭을 사용하던 Gett는 이제 New Relic One을 사용해 로깅 기능 등을 활용하고 있습니다. 뉴렐릭으로 모니터링 tool들을 통합하면, 팀이 간단하게 문제를 이해할 수 있을 뿐만 아니라 비용을 절감할 수 있다고 콘스탄티노프스키는 설명합니다.

“이전에는 ELK처럼 사용하기 복잡한 로깅 tool을 사용하고 있었다. 그래서 뉴렐릭에 로그를 추가하면서 정말 놀랐다. 처음으로 동일한 시스템에 모든 것을 통합해, 문제를 이해하고 식별하는 것이 너무나 쉬웠기 때문이다.”

아브니는 “여러 tool 간에 전환할 필요가 없기 때문에, 인시던트를 관리할 때 귀중한 시간을 아낄 수 있고 평균이해시간을 줄이는 데도 도움이 된다"며 “모든 서비스를 관리하는 데 도움을 주고 서비스 담당 엔지니어에게 전달될 알림 채널을 생성해준다는 점에서, 뉴렐릭이 인시던트 관리를 위한 최고의 tool이라고 생각한다"고 말합니다. 그는 "뉴렐릭의 특정 알람을 통해, 미세하게 알람을 조정할 수 있기 때문에 감지하는 데 걸리는 시간을 평균 5분에서 2분 미만으로 줄일 수 있었다”고 덧붙입니다.

“모든 서비스를 관리하는 데 도움을 주고 서비스 담당 엔지니어에게 전달될 알림 채널을 생성해준다는 점에서, 뉴렐릭이 인시던트 관리를 위한 최고의 tool이라고 생각한다. 뉴렐릭의 특정 알람을 통해, 미세하게 알람을 조정할 수 있기 때문에 감지하는 데 걸리는 시간을 평균 5분에서 2분 미만으로 줄일 수 있었다.”

리오르 아브니(Lior Avni), 글로벌 인시던트 관리자, Gett

데이터 모니터링 팀의 단일 정보 소스

매일 수백만 명이 사용하는 서비스를 관리하려면 예기치 않은 이벤트로 인해 고객 수요가 갑작스럽게 변화하는 상황을 고려해야 합니다. 부담이 급증할 때 기술이 정상적으로 작동될 수 있도록 민첩하게 대응해야 한다는 의미입니다.

콘스탄티노프스키는 “러시아 월드컵 같은 주요 이벤트는 대비하는 것이 가능하지만, 극심한 폭풍으로 인한 급증이나 경쟁사에 기술적 문제가 발생해 더 많은 고객이 우리 앱으로 갑자기 몰리는 경우는 예상하기가 어렵다”며 “뉴렐릭은 어디서 폭증세가 나타나고 있으며, 어디에 시스템과 용량을 추가해야 하는지를 정확히 파악하는 데 도움을 준다"고 설명합니다.

옵저버빌리티의 속도와 정밀함은 이러한 인시던트를 관리하는 방식을 변화시켜, Gett가 보다 선제적으로 대응할 수 있도록 지원하였습니다.

콘스탄티노프스키는 “문제에 대해 더 명확하고 더 빠른 가시성이 있다는 말은, 운전자가 고객 관리 팀에 전화할 때 즈음에는 이미 팀이 그 전화를 예측하고, 고객에게 문제가 처리되고 있다고 자신 있게 말할 수 있게 되었다는 것을 의미한다. 개인적으로, 뉴렐릭의 큰 장점은 인시던트와 관련된 모든 문제를 우리가 함께 해결하고 관리하는 데 도움을 준다는 것”이라고 설명합니다.

New Relic One을 통해 포괄적인 단일 정보 소스를 확보하면, 인시던트 관리 팀과 개발 팀이 우수한 디지털 경험을 제공한다는 주요 목표를 위해 훨씬 더 긴밀하게 협력할 수 있습니다.

R&D 책임자인 레나 카츠(Lena Katz)는 “Gett에서는 R&D 개발자가 서비스 담당자다. 우린 개발자들이 즐겁게 일할 수 있길 바라지, 필요하지도 않은 일 때문에 호출기가 계속 울려대는 것을 바라지 않는다. 뉴렐릭을 사용하면 200여 개의 마이크로서비스 모두를 아주 명확하게 확인할 수 있기 때문에, 무슨 일이 일어나고 있는지, 어떤 마이크로서비스가 화재 진압이 필요한지 정확히 파악하고 올바른 개발 팀에게 전달할 수 있다”고 말합니다.

기술 지원 팀은 기술 전문가가 아니기 때문에, 이러한 협업은 중요합니다. 따라서 뉴렐릭이 팀에게 명확한 지침을 전달하는 것도 매우 중요합니다. 콘스탄티노프스키는 “뉴렐릭은 문제를 정확하게 식별하는 데 도움이 된다. 어떤 마이크로서비스에 문제가 있는지 뿐만 아니라, 어떤 특정 오류로 인해 이 서비스에 문제가 발생했는지도 알 수 있다. 그래서 개발자들에게 연락할 때, 특정 오류의 링크를 보내 문제를 훨씬 빠르게 해결하도록 지원할 수 있다”고 설명합니다.

개발자들은 뉴렐릭이 운영 단계 배포 시 도움을 준다는 점에서 설득되었습니다.

아브니는 항상 R&D 엔지니어들에게 “새로운 기능이 아무리 좋아도 레거시 시스템이 작동하지 않으면 무슨 소용인가”라고 말하곤 했다고 합니다. 그는 “고객 경험이 최우선이며, 가장 중요한 것일뿐만 아니라 유일하게 중요한 것"이라며 “뉴렐릭 대시보드는 큰 도움을 준다. 대시보드를 보여주면, 엔지니어들은 순간 깨달음을 얻는다. 완전한 그림을 볼 수 있고 버튼만 누르면 어떤 트랜잭션이 수정하기 가장 까다로운지를 볼 수 있기 때문”이라고 말합니다.

인시던트 관리를 위한 견고한 프로세스를 구축하고 강력한 협업 팀을 만들어, 모든 직원이 뉴렐릭을 기반으로 협업할 수 있게 만든 결과, MTTR이 50%나 감소했습니다.

콘스탄티노프스키는 “New Relic One을 열면 어디에 문제가 있고, 문제가 있는 마이크로서비스가 비즈니스에 어떤 영향을 미치는지를 즉시 이해할 수 있다. 고객 관리 팀과 고객들에게 어떤 영향을 미칠지 이해할 수 있기 때문에, 서로 협력해 인시던트를 원활하게 관리하는 데 도움이 된다”고 말합니다.

카츠에게 이는 기술이 어떻게 비즈니스를 지원하는지 보다 훨씬 더 중요합니다.

“고객에게 99%라는 최상의 SLA로 서비스를 제공하려고 노력하고 있기 때문에, 가능한 한 빨리 문제를 감지하고 즉석에서 문제를 해결할 수 있어야 한다. 그것이 애플리케이션들을 관찰하기 위해 뉴렐릭에 투자한 이유다. 뉴렐릭은 서비스에서 항상 무슨 일이 일어나고 있는지 이해할 수 있는 역량을 제공하기 때문이다.”

“고객에게 99%라는 최상의 SLA로 서비스를 제공하려고 노력하고 있기 때문에, 가능한 한 빨리 문제를 감지하고 즉석에서 문제를 해결할 수 있어야 한다. 그것이 애플리케이션들을 관찰하기 위해 뉴렐릭에 투자한 이유다. 뉴렐릭은 서비스에서 항상 무슨 일이 일어나고 있는지 이해할 수 있는 역량을 제공하기 때문이다.”

레나 카츠(Lena Katz), R&D 책임자, Gett

뉴렐릭에 무료로 액세스하십시오.

무료로 제공되는 플랫폼에 대한 풀 액세스와 매월 100GB의 인제스트를 통해 소프트웨어 스택을 모니터링할 수 있습니다. 신용카드는 필요하지 않습니다.