Tappytoon Tech Blog

글로벌 웹툰 & 웹소설 플랫폼, 태피툰을 만드는 사람들의 이야기를 전합니다

채용 지원하기

tech

MMP 데이터 분석 파이프라인 구축기 - 4탄 <Partitioning, Merging and Analysis>

MMP 데이터 분석 파이프라인 구축기의 마지막 글입니다. 효율적인 데이터 쿼리를 위해 Parquet 형태로 데이터를 Merge 하고, Partition을 생성 해준 후, 간단하게 Athena를 이용해 쿼리하는 파이프라인 구축에 대해 이야기 했습니다.

Genie


tech

MMP 데이터 분석 파이프라인 구축기 - 3탄 <Streaming and Process>

오늘은 Kinesis Data Streams와 Kinesis Data Firehose에 대해 알아보겠습니다. 이 두 인프라는 Stream Storage와 Processing 역할을 하며 Data Lake로 분석 가능하도록 데이터를 보내주는 역할을 합니다. Stream Storage는 일정한 주기 또는 크기의 데이터를 처리할 수 있도록 데이터를 잠시 버퍼링 해주는 저장공간 입니다. Tappytoon에서는 Stream Storage로 Kinesis Data Streams를 사용하고 있습니다. Kinesis Streams는 세가지 특징(큐(Queue), 분산(Distribution), 저장공간(Storage))을 가지고 있습니다. Stream Storage에 담겨있는 정보를 누군가가 목적지에 가져가야만 분석을 진행할 수 있습니다. 바로, Kinesis Data Firehose가 이 역할을 해주는데, 이는 스트리밍 이벤트 데이터를 원하는 목적지에 배달해주는 배달부와 같습니다. Data Lake에 들어간 데이터에 반드시 수정해야할 점이 있다면, Lambda를 Firehose에 붙여주는 것이 좋은 방법입니다. AWS Gateway API로부터 전달받은 데이터를 실시간으로 S3에 적재하는 파이프라인을 만들었고, 그 과정에서 Kinesis Data Streams와 Kinesis Data Firehose 역할을 정리하였습니다.

Genie


tech

MMP 데이터 분석 파이프라인 구축기 - 2탄 <AWS Gateway API>

오늘은 저희가 사용 중인 MMP툴에서 제공하는 파이프라인의 문지기, API Gateway에 대해서 설명해보려고 합니다. API Gateway는 실시간 Push API와 연동되어 데이터를 가장 앞단에서 받아내는 역할을 하는 시스템입니다.

Genie


tech

MMP 데이터 분석 파이프라인 구축기 - 1탄

태피툰의 지니입니다 태피툰 플랫폼팀 데이터엔지니어 지니입니다. 입사와 함께 팀이 생겼고, “데이터 엔지니어로서 어떤 일을 해야하고, 팀의 방향은 어떻게 가야하는가” 라는 질문부터 시작해서 1년동안 회사에 “Data Driven” 환경을 만들기 위해 프로젝트들을 진행했습니다. 백엔드 서버의 로그와 사용자 히스토리를 수집/가공/분석하는 작업을 통해 최종적으로 서비스 주요 지표를 볼 수 있는 환경을 제공하고, 시각화 툴을 이용해서 방대한 양의 데이터를 한눈에 보기쉽게 하는 시스템을 구축하고 있습니다.

Genie