Outsider's Dev Story

Stay Hungry. Stay Foolish. Don't Be Satisfied.
RetroTech 팟캐스트 44BITS 팟캐스트

Datadog Dash 2024 참석기 #2

이 글은 Datadog Dash 2024 참석기 #1에서 이어진 글이다.


Day 2

사용자 삽입 이미지 사용자 삽입 이미지

내가 생각하는 뉴욕의 일상적인 풍경. 뉴욕은 10여 년 만에 왔는데도 항상 어딘가는 공사를 하는 거 같다. 이날은 키노트가 있는 Dash의 메인 행사일이었는데 키노트 시간에 맞춰서 움직이다 보니 아침에 약간의 여유가 생겨서 같이 간 동료와 함께 커피숍에서 여유를 즐겼다. 잠자는 시간 외에는 일정이 너무 빡빡해서 여유가 없어서 힘들었기에 잠시 이렇게 커피 마시는 시간도 꽤 좋았다.

Keynote

사용자 삽입 이미지

키노트는 5층 행사장에서 열렸고 APAC을 위한 자리가 따로 마련되어 있어서 꽤 앞에 앉아서 볼 수 있었다.

LLM Observability (GA)

LLM이 유행하면서 회사에서도 여러 LLM 애플리케이션을 테스트하거나 만들고 있을 텐데 LLM 애플리케이션을 모니터링할 수 있는 기능이다. 프롬프트에 들어오는 입력과 출력을 한 곳에서 모아볼 수 있고 보안 이슈 등도 확인할 수 있다.

Kubernetes Autoscaling (Private Beta)

사용자 삽입 이미지

컨테이너의 65% 이상이 요청한 CPU와 메모리의 절반도 사용하지 않는다고 얘기하면서(크게 동감하는 부분이다) Kubernetes Autoscaling 기능을 소개했다.

사용자 삽입 이미지

사용자 삽입 이미지

Datadog에는 Kubernetes 모니터링 기능이 있어서 각 Pod의 Idle 리소스를 추적할 수 있는 기능이 이미 있다. Kubernetes에서 리소스를 최적화하는 거는 꽤 어려운 일이라고 생각하는데, 기존 모니터링을 이용해서 워크로드 사용량에 맞는 적합한 리소스를 할당해 주겠다는 의미이다. Kubernetes 비용 최적화하는 회사들 큰일 났다는 생각이 들었지만, 나중에 따로 물어보니 Datadog에서 Kubernetes에 바로 리소스를 적용한다는 의미라고 한다. 실제로 써봐야 알겠지만, 보통은 Argo CD 같은 GitOps를 쓰고 있을 가능성이 커서 바로 Kubernetes 클러스터에 리소스 변경을 가하면 다시 롤백될 가능성이 있어 보이는데 이런 부분에 대한 답변은 받지 못했다.

Log Workspaces (Private Beta)

Log Workspaces는 기존에 Datadog에 쌓은 로그를 더 쉽게 살펴볼 수 있는 기능을 제공한다. 약간은 빅쿼리를 쓰듯이 필요한 데이터를 쉽게 뽑아 사용할 수 있게 하려는 느낌이었다. 여러 로그를 쉽게 조합해서 조회할 수 있고 자연어를 입력하면 LLM이 쿼리도 작성해 주고 워크스페이스내에서 조회한 데이터를 바로 시각화까지 할 수 있어서 시스템 로그보다는 비즈니스 관련 로그를 조회할 때 유용해 보였다.

Datadog Agent with OpenTelemetry (Private Beta)

요즘 옵저버빌리티에서 오픈 표준으로 자리 잡은 OpenTelemetry가 등장했다.

사용자 삽입 이미지

GitHub이 나와서 GitHub에서 OpenTelemetry의 여정을 소개했다. GitHub을 어떻게 섭외했지, 싶기도 한데 이 히스토리를 보면 처음에는 OpenTracing을 도입했다가(OpenTracing과 OpenCensus가 합쳐서 OpenTelemetry가 된 것이다.) 2022년 OpenTelemetry로 전환은 완료한다. 근데 신기하게도 OpenTelemetry 마이그레이션이 끝나자마자 Datadog을 평가하기 시작하고는 바로 Datadog으로 전환하고 기존에 도입한 OpenTelemetry 시스템은 내려버린다. 내 추측이지만 GitHub을 등장시킨 이유는 OpenTelemetry를 쓰고 있어도 여전히 Datadog을 사용할 가치가 충분하다는 것을 우회적으로 보여주려는 것이 아닌가 싶다.

사용자 삽입 이미지 사용자 삽입 이미지

사용자 삽입 이미지

그러고는 Datadog의 OpenTelemetry 구애(?)가 시작되었다. 계속해서 하트가 등장하면서 Datadog이 얼마나 OpenTelemetry를 좋아하고 Datadog에서 OpenTelemetry를 함께 쓰면 더 낫다는 점을 강조했다. 그리고 이번에 발표한 기능은 기존 Datadog Agent에 OpenTelemetry 기능이 추가되어서 에이전트 설정에 OpenTelemetry를 활성화하는 설정만 넣으면 바로 사용할 수 있게 되었다.

Datadog은 10분 이상 OpenTelemetry에 시간을 사용했는데 개인적인 내 해석은 이제 옵저버빌리티에서 OpenTelemetry는 업계의 공개된 표준이 되었다. 그동안은 적절한 대안이 없었기 때문에 각 업체가 독자적인 포맷을 사용할 수 있었지만, 이제는 대안이 있으므로 당연히 엔지니어들은 이 공개된 표준을 지원해 달라고 요구하기 마련이고 사실 Datadog 입장에서는 공개된 표준보다는 독자적인 형식을 사용하길 원하기 쉽다. 물론 비즈니스 형태에 따라 약간 다를 수는 있지만 이런 공개 표준을 사용할 경우 업체를 바꾸기가 쉽게 되기 때문에(실제로는 복잡한 많은 다른 기능이 있어서 쉽진 않지만) 보통은 1위 기업은 이런 걸 원하지 않고 후발주자들은 공개 표준으로 판을 흔들기를 원할 것으로 생각한다.

Datadog의 속마음까지는 모르지만, 그런 면에서 Datadog은 공개 표준을 따르지 않을 경우 엔지니어들한테서의 여론이 나빠질 가능성도 있고 OpenTelemetry의 판이 점점 커지고 있기 때문에 현실적으로 모른척하기도 어려운 상황이라고 생각한다. 그래서 이번에 지원하면서 단순 기능 발표만 한 게 아니라 Datadog이 OpenTelemetry에 얼마나 진심인지를 보여주려고 시간을 많이 쓰고 GitHub도 불러와서 OpenTelemtry를 써도 Datadog을 쓸 이유가 있다는 점을 강조하려고 했다고 생각한다.

Agentless Scanning (GA)

GA는 General Availability의 약자로 누구나 사용할 수 있다는 의미이다.

사용자 삽입 이미지

그 이름 그대로 Agengt 없이 보안 취약점을 점검할 수 있는 기능이다. 인프라에 에이전트를 새로 설치하는 것도 꽤 부담되는 일인데 에이전트 없이 할 수 있다는 점이 가장 매력적으로 보이고 어떻게 동작하는지 궁금할 정도였다.

사용자 삽입 이미지

사용자 삽입 이미지

현재는 AWS에 일부 리소스에 대해서만 동작하는데 Datadog에서 설정을 켜기만 하면 가능한 것으로 보인다. 위에서 보듯이 Host, Container, Lambda, Data의 보안/취약점을 점검할 수 있고 발견된 취약점은 해당 취약점에 접근할 수 있는 경로와 이 취약점으로 인해서 영향받는 폭발 반경까지 시각적으로 표시되어 꽤 놀아왔다. 이렇게 다 보이려면 Datadog에 AWS 연동이 훨씬 많이 되어 있어야 할 것 같아서 데모 말고 실제로 사용했을 때 어떻게 보일지가 궁금했는데 이렇게만 보인다면 상당히 도움 될 것으로 보였다. 이런 게 보인 취약점에서 Terraform 코드 Pull Request를 올려주거나 Jira에 이슈를 만들어주는 연동까지 보여줬다.

Code Analysis (GA)

저장소와 연결해서(워크숍을 봤을 때는 주로 GitHub Actions의 워크플로우) 코드를 정적 분석해서 취약점을 알려준다. 그동안 대부분의 기능이 프로덕션 운영모드에서의 모니터링에 중점이 있는데 CI 기능들과 비슷하게 Shift Left해서 코드 저장소 차원에서 빠르게 피드백을 주는 의미가 있다. 아직 Datadog이 Shift Left한 CI 쪽에서 강하다고 생각하진 않는데 운영에서의 강력함을 가지고 있기에 이쪽으로 확장했을 때 할 수 있는 부분도 많을 거로 생각한다.

Live Debugger (Private Beta)

사용자 삽입 이미지

사용자 삽입 이미지

이 기능을 꽤 흥미로운데 프로덕션에서 익셉션이 발생했을 때 이 프로덕션 데이터를 로컬에 있는 VS Code로 가져와서 해당 변숫값을 프로덕션 데이터로 할당해서 디버깅할 수 있다. 문서를 보면 현재 Python, Java, .NET을 지원한다. 보통 서비스를 운영할 때 프로덕션에서 버그나 문제가 생겼는데 어떤 값이 들어와서 문제가 발생했는지 몰라서 로컬에서 재현하지 못하는 경우가 종종 있는데 이럴 때 빠르게 문제를 해결하는 데 도움이 될 것 같다. 데모에서는 AI를 이용해서 해당 코드의 개선점도 알려주고 테스트 코드도 작성해 주긴 하는데 접근방법은 흥미롭지만 실제로 얼마나 유용할지 편할지는 사용을 해봐야 확실히 알 수 있을 것 같다.

Product Analytics (Private Beta)

사용자 삽입 이미지

Product Analytics는 Google Analytics처럼 제품에서 사용자의 활동을 추적하는 기능이다. 그동안 Datadog이 엔지니어가 주로 사용하는 도구였으면 Product Analytics를 사용한다면 비즈니스 목표도 볼 수 있기 때문에 엔지니어뿐 아니라 회사의 전직군을 고객으로 만들려고 하는 제품이라고 생각한다. 이쪽에는 다양한 경쟁자가 많기 때문에 아직 경쟁력이 있는 수준이라고 할 정도는 아닐 것 같지만, 초기 스타트업에서 많은 제품을 쓰는 대신 Datadog 하나로 모두 해결할 수 있다면 나쁘지 않은 접근으로 보인다.

Change Tracking (Private Beta)

사용자 삽입 이미지

기존에 배포를 구분해 주는 유용한 기능이 있었지만 여기서 더 확장해서 변경 사항을 추적하는 기능을 보여주었다. 데모는 Feature-flag로 보여주었는데 화면에는 피처 플래그로 유명한 스타트업인 LaunchDarkly 버튼이 있었다.(이건 통합하면 버튼이 나오는 건지 LaunchDarkly만 지원하는지는 잘 모르겠다.) 이러함 변경 사항을 추적해서 서비스에 문제가 생겼을 때 그래프와 함께 변경 사항을 함께 보여주어서 원인을 빠르게 파악할 수 있도록 해준다. 배포 시스템을 만들면서 변경 사항 추적도 계속 신경 쓰는 기능인데 Datadog의 그래프와 함께 해당 기능을 잘 풀어냈다고 생각한다.

Bits AI Autonomous Investigator (Private Beta)

사용자 삽입 이미지

사용자 삽입 이미지

Bits AI는 작년에 Datadog이 발표한 인시던트 분석을 도와주는 AI 봇이다. 인시던트가 발생했을 때 문제 상황을 정리해 주고 관련 데이터를 찾아서 원인을 추측해 준다. 기존 Bits AI도 못 써봐서 기존보다 확장된 기능의 구분이 아주 명확하지는 않은데 인시던트 분석이 더 강화되었다. Datadog이 알림을 트리거 한 경우 Bits AI가 문제 상황을 분석해서 영향도를 파악한 뒤 인시던트로 선언할지를 제안하고 인시던트에서 같이 상황 분석을 도와주면서 원인을 찾아준다. 데모에서는 해당 문제가 발생한 시간에 DB 마이그레이션이 있었음을 찾아서 알려주었다.(DB 마이그레이션 작업을 Datadog에 어떻게 알려줬는지는 잘 모르겠다.) 한국어를 얼마나 할지는 모르겠지만 정신없는 인시던트 상황에 꽤 도움이 될 것이라고 생각한다.(하지만 그러려면 더 많은 데이터를 Datadog에 통합시켜야 한다.)

On-Call (Private Beta)

Bits AI로 인시던트 설명하고 나서 잠시 뜸을 들인 뒤 On-Call을 발표했다.

사용자 삽입 이미지

사용자 삽입 이미지

Datadog이 옵저버빌리티를 중심으로 서비스하고 있고 많은 인시던트의 알림을 제공하고 있기 때문에 On-Call 연동은 자연스럽다면 자연스럽다고 할 수 있다. 회사나 팀에 온콜 일정이 있을 때니 누가 언제 온콜을 할지 스케줄링하고 문제가 생겼을 때 인시던트를 에스컬레이션하는 기능을 포함해서 모바일과 통합해서 빠르게 커뮤니케이션하고 문제상황을 파악할 수 있도록 도움을 준다. Dash의 스폰서사로 PagerDuty도 있었는데 PagerDuty에게는 나쁜 소식이 아닐 수 없다.

키노트가 끝나고 이때는 사실 체력이 방전되어서 오후에는 Expo에서 그냥 좀 쉬었다. 다른 세션도 있었지만, 오후에는 한국인을 대상으로 한 키노트 리캡 세션이 있었기 때문에 리캡세션에 들어가서 발표된 내용에 대해서 좀 더 듣고 질문을 할 수도 있었다. 리캡세션이 있다고 해서 키노트 때 통역이 없는 줄 알았었는데 막상 가니 한국어 동시통역이 있었다. 나중에 들어보니 동시통역은 많은 인터뷰를 통해서 골랐다고 하는데, 키노트에 기술 용어가 너무 많이 나왔기 때문인지 통역사분이 너무 힘들어하셨다. 이어폰을 통해서 이 용어를 그대로 말할지 번역할지를 고민하는 게 느껴질 정도였고 마이크에 대고 한숨을 너무 많이 쉬셔서 안타까운 마음이 전해졌다. 뭐 그래도 화면도 있었기에 내용 자체를 이해하는 데는 큰 무리는 없었다.

저녁에 한국 식당에서 회식하고 또 가볍게 술을 한잔하면서 공식 행사는 마무리되었다.

Dash 컨퍼런스 에필로그

Dash도 좋았지만, 평소에 업무 연관성이 크진 않아서 교류가 많지 않던 회사 동료와 3일을 같이 있으면서 회사나 업무 얘기를 많이 한 게 특히 좋았다. 그리고 보통 미팅할 때만 만나던 메가존 분들도 여러 자리에서 얘기하면서 메가존의 입장이나 상황에 대해서도 많이 알게 되어서 재미있었다.

Dash에서 키노트를 들을 때는 한꺼번에 많은 기능을 공개해서 그런지 현장에서는 좀 충격을 받았다. Datadog이 정말 잘하는구나. 당분간 대적할 회사가 없겠다는 생각이 들었고 이때 발표한 많은 기능을 실제로 써보진 않았지만 문제 해결을 잘 풀어냈고 방향성이 좋다고 느껴졌다. 하지만 키노트가 끝나고 머리가 좀 식고 냉정하게 보니 그 정도는 아니라는 생각도 들었다. 방향성이 좋다고는 하지만 실제 도움이 될 정도의 퀄리티이냐 하는 건 다른 얘기고 이는 실제로 사용해 봐야만 알 수 있는데 여러 질문과 상황에 대해서는 아직은 방향성 제시에 가깝고 성숙도가 올라오려면 시간이 꽤 걸릴듯한 느낌이 들었다.

일단 Private Beta가 너무 많아서 실제로 언제 사용할 수 있을지 알 수가 없고 이번 키노트만의 문제는 아니지만 Datadog은 과금 체계가 너무 복잡하다는 생각을 많이 한다. 클라우드나 SaaS가 대부분 그렇듯이 트래픽이나 사용량이 늘어나면 비용이 얼마나 늘지 어느 정도 예측할 수 있지만 Datadog을 수많은 기능에서 다양한 조건으로 과금하므로예측하는 거조차 어렵고 비용에 대해서 따로 시간 내서 공부를 계속해야 할 정도 있다.

이러한 과금 문제는 이번에도 느껴졌는데 대부분의 임팩트 있는 기능의 가격은 알려주지 않았기 때문에 Private Beta라는 것은 테스터 역할을 고객이 대신해 주는 느낌도 들었고 실컷 테스트하고 맘에까지 들었는데 비용이 너무 비싸서 도입하지 못한다면 의미 없는 일이 된다. 이런 부분을 Datadog이 좀 해소해 주어야 한다고 생각한다. 개인적으로 AWS가 이런 부분을 제일 잘했다고 생각하는데 클라우드의 가치를 제공하면서 고객사가 비용도 아껴서 더 오래되어야 장기적으로 고객사와 AWS가 모두 좋다는 이미지를 잘 심어주었고 실제로도 그런 노력을 많이 했는데 Datadog은 아직은 그런 부분에서 부족해서 좋은 기능을 제공한다는 말이 자꾸 '비용이 엄청나게 나가겠구나!' 하는 말로 들렸다.(많은 걸 통합할수록 얻을 이득도 크니까...)

Day 3 이후

뉴욕은 2013년 놀러 간 이후에 11년 만에 간 것이다. 기술 콘퍼런스를 매년 가는 편이지만 주로 샌프란시스코를 중심으로 한 서부에서 많이 열리고 동부에서는 잘 안 열리는 데다가 비행기 시간도 더 길어서(2~3시간 차인데 체감은 꽤 크다) 어렵게 온 김에 좀 더 있고 싶어서 일행은 한국으로 돌아갔지만 나는 뒤에 휴가를 붙여서 며칠 더 있었다. 뉴욕이나 동부에 지인들이 좀 있어서 지인들 만나면서 좀 즐길 생각이었다.

사용자 삽입 이미지

크기는 비슷해 보였지만 침대가 하나라서 이전 숙소보다는 여유가 있었다. Club Quarters Grand Central 호텔에서 머물렀는데 책상도 있어서 꽤 맘에 들었다. 숙소에 비용을 많이 쓰는 편은 아닌데 지인과 만나기 위해서 맨해튼 중심에 머무르다 보니 어쩔 수 없었다.(미국 와서 내가 비용 낸 숙소 중에 제일 비싼 듯 ㅎㅎ)

사용자 삽입 이미지

사용자 삽입 이미지

관광을 즐기는 편은 아니라 노트북으로 작업할 곳을 가기 전부터 찾았다. 뉴욕 공립 도서관의 Rose Main Reading Room이 작업하기 좋다는 정보를 얻어서 갔는데 실제로 너무 좋았다. 뉴욕 공립 도서관은 특성상 관광객이 꽤 많은데 Rose Main Reading Room은 관광객은 못 들어가고 공부하거나 연구하는 사람들만 들어갈 수 있는데 그냥 들어가면 된다. 여러 영화에서도 나온 곳인데 일단 분위기가 너무 좋고 사람도 많지 않고 조용해서 작업하기는 너무 좋았다. 하지만 커피가 없다 보니(안내는 안 된다고 되어 있는 듯한데 물통 들고 온 사람은 좀 있는 듯) 오래 있기가 좀 어려웠고, 도서관이다 보니 Rose Main Reading Room을 나올 때마다 가방 검사를 해야 하는 것도 약간 귀찮긴 하다.(화장실은 밖에 있다.)

맘같아서는 Rose Main Reading Room에 하루 종일 있고 싶었지만, 커피도 마시고 싶어서 카페도 많이 다녔는데 워낙 좁은 맨해튼이다 보니 좋은 카페를 찾기가 쉽지 않았다. 테이블이 아예 없는 카페도 꽤 많았고 좌석이 있어서 좁은 곳이 태반이었다. 또한 혼자 가면 화장실 갈 때 짐을 다 싸야 해서 귀찮은 것도 사실이다. 그래서 실제로는 숙소에 훨씬 더 많이 있었다. 책상도 있었고 시원하기도 해서 머무르기 너무 좋았다.

내가 갔을 때 다행히 뉴욕이 엄청 덥지는 않아서 관광도 하고 지인들도 만나고 잘 쉬다가 돌아왔다.

2024/07/11 01:53 2024/07/11 01:53