Data Analysis

Amazon Athena

  • Amazon S3 버킷에 저장된 데이터 분석에 사용하는 서버리스 쿼리 서비스

  • 데이터를 분석하려면 표준 SQL 언어로 파일을 쿼리해야 한다. 이를 위해 Athena는 SQL 언어를 사용하는 Presto 엔진에 빌드된다.

  • S3 버킷에 업로드된 데이터를 다른 위치로 이동시키지 않고 바로 데이터를 쿼리하고 분석할 수 있다.

  • CSV, JSON, ORC, Avro Parquet 등 다양한 형식을 지원한다.

  • 스캔된 데이터의 TB당 고정 가격이 과금된다.

  • 서버리스이므로 데이터베이스를 프로비저닝 할 필요가 없다.

  • Amazon QuickSight라는 도구와 함께 사용하여 분석 결과를 보고서와 대시보드로 내보낼 수 있다.

  • 임시 쿼리 수행이나 비즈니스 인텔리전스 분석 및 보고, VPC 흐름 로그, 로드 밸런서 로그, CloudTrail 추적 등을 분석할 때 사용된다.

  • 성능 향상 방법

    • 데이터를 적게 스캔할 수 있는 데이터 타입을 사용한다. 열(column) 기반 데이터 유형을 사용하면 필요한 열만 스캔하므로 비용을 절감할 수 있다. 이를 위해 Apache Parquet과 ORC를 사용하면 된다.

    • 작은 크기의 데이터를 조회하기 위해 데이터를 압축해 저장해둘 수 있다.

    • 다음으로 특정 열을 항상 쿼리한다면 데이터셋을 파티셔닝할 수 있다. S3 버킷의 경로를 슬래시로 분할하여 열별로 특정 값을 저장할 수 있다. 이렇게 되면 데이터를 쿼리할 때 Amazon S3의 어떤 경로에 접근해 데이터를 조회할 지 알기 쉬워지고 적은 용량의 데이터만 조회 가능해진다.

    • 128MB가 넘는 큰 파일을 사용해서 오버헤드를 최소화할 수 있다. 파일이 클수록 스캔과 검색이 쉽기 때문이다.

  • Federated Query

    • 람다와 연동하여 S3 외에 ElastiCache, DocumentDB, DynamoDB 등 다른 데이터 소스에 연결할 수 있다.

    • 각 데이터 소스로부터 얻은 쿼리 결과를 쿼리를 조인하거나 더 나은 데이터를 판별할 수 있다.

    • 쿼리 결과는 사후 분석을 위해 Amazon S3 버킷에 저장할 수 있다.

Redshift

  • 데이터베이스인 동시에 분석 엔진 기능을 제공한다.

  • Redshift는 PostgreSQL을 기반으로 하여 SQL문을 사용해 쿼리를 수행할 수 있다. 단, PostgreSQL과 달리 OLTP 용도로 사용하지 않는다.

OLTP: 온라인 트랜잭션 처리, 롤백을 지원하며 소규모의 데이터를 처리할 때 사용한다. OLAP: 온라인 분석 처리, 데이터 웨어하우스 등의 시스템과 연관되어 데이터를 분석하고 복잡한 프로세싱을 수행할 수 있다.

  • 다른 데이터 웨어하우스보다 10배 좋은 성능을 제공한다.

  • PB단위로 확장 가능하다.

  • 데이터를 로드하면 Redshift 내에서 바로 무작위화할 수 있다.

  • 데이터를 Columnar(열 기반) 스토리지로 사용하여 성능이 좋다. 행 기반 스토리지와 달리 병렬 쿼리 엔진을 사용한다.

  • Amazon QuickSights나 Tableau 같은 비즈니스 인텔리전스 툴과 통합 가능하다.

  • Athena와 달리 Amazon S3로부터 Redshift로 모든 데이터를 로드한 후 쿼리를 진행한다. 따라서 조인과 집계 등 복잡한 쿼리를 빠르게 수행할 수 있다.

  • Redshift에는 인덱스가 있고 고성능 데이터 웨어하우스를 위해 인덱스를 빌드한다.

클러스터

  • Redshift 클러스터에 공급한 인스턴스만큼 비용을 지불해야 한다.

  • 쿼리를 계획하고 결과를 집계하는 리더 노드와 쿼리를 수행하고 결과를 리더에게 전송하는 계산 노드로 분리된다. 클러스터의 노드 크기는 미리 지정되어야 한다.

  • 프로비전 모드를 사용하면 예약 인스턴스를 통해 비용을 절감할 수 있다.

스냅샷, DR

  • 특정 클러스터 유형에 대해 멀티 AZ모드를 제공한다.

  • 일반적인 클러스터 유형에서는 싱글 AZ를 사용하는데, 이 경우에는 DR를 위해서 스냅샷을 주기적으로 내보내주어야 한다.

  • 스냅샷은 클러스터를 위한 point-in-time 백업이며 Amazon S3에 내부적으로 저장되고, 계속해서 새로운 스냅샷을 저장하는 것이 아니라 변경된 사항들만 덧붙여진다.

  • 새로운 클러스터에 스냅샷을 적용할 수 있다.

  • 두 가지 모드가 존재한다.

    • 수동 모드

      • 직접 스냅샷을 내보내야 한다.

      • 스냅샷의 저장 기간이 따로 없으며, 직접 제거할 때 까지 유지된다.

    • 자동 모드

      • 스냅샷을 내보내는 주기를 정해 일정 간격으로 내보낼 수 있다.

      • 스냅샷을 위한 저장 기간을 설정할 수 있다. 1 ~ 35일 동안 유지할 수 있다.

  • 스냅샷을 다른 AWS 리전에 자동으로 복사하도록 구성할 수 있다.

데이터 수집

  • Amazon Kinesis Data Firehose

    • 다양한 소스에서 데이터를 받는 Firehose에서 Redshift로 데이터를 전송할 수 있다.

    • 데이터를 먼저 Amazon S3 버킷에 넣은 후 Kinesis Data Firehose가 자동적으로 S3 복사 명령을 내려서해당 데이터를 Redshift로 로드할 수 있다.

  • 수동으로 copy 명령을 이용해 S3 버킷의 데이터를 Redshift로 복사

    • IAM 역할을 함께 사용해야 한다.

    • S3 버킷은 퍼블릭 접근이 가능하므로 인터넷을 통해 데이터를 복사하거나, VPC 라우팅을 이용해 내부적으로 데이터를 복사할 수 있다.

  • JDBC 드라이버 사용

    • EC2 인스턴스에서 구동된 애플리케이션로부터 데이터를 Redshift 클러스터에 보낼 때 사용한다.

    • 배치로 데이터를 보내는 것이 좋다.

Redshift Spectrum

  • Amazon S3의 데이터를 Redshift로 로드하지 않으면서 데이터를 분석할 때 사용한다.

  • Redshift 클러스터에 쿼리를 보내면 수천개의 Redshift Spectrum 노드에게 전달된다.

  • Spectrum 노드들은 Amazon S3에서 데이터를 읽고 병합하여 완료된 결과를 Amazon Redshift 클러스터로 전송한다.

  • 이 기능은 Redshift의 처리 기능을 훨씬 더 많이 사용할 수 있다.

OpenSearch

  • 데이터베이스에서는 기본 키나 인덱스만을 이용해서 쿼리를 할 수 있지만 OpenSearch를 사용하면 모든 필드를 검색할 수 있다. 부분 매칭도 가능하다.

  • OpenSearch는 보통 검색에 사용되지만, 분석적 쿼리에도 사용할 수 있다.

  • OpenSearch 클러스터 프로비저닝 모드

    • 관리형 클러스터

      • 실제 물리적인 인스턴스가 프로비저닝된다.

    • 서버리스 클러스터

      • 스케일링부터 운영까지 모두 AWS에서 관리한다.

  • 자체적으로 SQL을 지원하진 않지만, 플러그인을 통해서 SQL 호환성을 활성화할 수 있다. 기본적으로는 자체 쿼리 언어를 사용해야 한다.

  • Kinesis Data Firehose, AWS IoT, CloudWatch Log, 커스텀 애플리케이션으로부터 데이터를 받을 수 있다.

  • Cognito, IAM, KMS 암호화, TLS를 통해 보안이 제공된다.

  • OpenSearch 대시보드로 OpenSearch 데이터를 시각화할 수 있다.

  • 사용 패턴

    • 실제 데이터를 담는 DynamoDB Table이 있고, DynamoDB Stream과 람다 함수를 통해 OpenSearch에 데이터를 복사해둘 수 있다. 애플리케이션에서는 OpenSearch를 통해 특정한 항목을 검색할 수 있다.

    • CloudWatch Logs를 Subscription Filter와 람다 함수를 사용해 실시간으로 OpenSearch에 복제할 수도 있고, Subscription Filter와 Kinesis Data Firehose를 사용해 거의 실시간으로 OpenSearch에 복제할 수도 있다.

    • Kinesis Data Streams를 Kinesis Data Firehose와 람다 함수를 사용해 거의 실시간으로 OpenSearch에 저장할 수 있다. 이 때 람다 함수에서는 원하는 형태로 데이터를 변환할 수 있다. 혹은 람다 함수만을 이용해 실시간으로 데이터 스트림을 읽어 OpenSearch에 저장할 수 있다.

EMR

  • Elastic MapReduce

  • AWS에서 빅 데이터 작업을 위한 하둡 클러스터 생성에 사용된다. 방대한 양의 데이터를 분석하고 처리할 수 있다.

  • 하둡 클러스터는 프로비저닝해야 하며 수백 개의 EC2 인스턴스로 구성 가능하다.

  • 빅 데이터 전문가가 사용하는 여러 도구 중 설정이 어려운 도구와 쉽게 통합된다. 예를 들어Apache Spark, HBase, Presto Apache Flink를 사용하고자 할 때 Amazon EMR이 프로비저닝과 구성을 대신 처리해준다.

  • 전체 클러스터를 자동으로 확장할 수 있고, 스팟 인스턴스와 통합 가능하다.

  • 데이터 처리와 기계 학습, 웹 인덱싱, 빅 데이터 작업에 사용될 수 있다.

  • 노드 타입

    • 마스터 노드: 클러스터를 관리하고 다른 모든 노드의 상태를 관리한다. 장기적으로 실행되어야 한다.

    • 코어 노드: 태스크를 실행하고 데이터를 저장한다. 장기적으로 실행되어야 한다.

    • 태스크 노드: 테스크를 실행한다. 대부분 일시적인 스팟 인스턴스를 활용한다. 태스크 노드 사용은 선택 사항이다.

  • 구매 옵션

    • 온디맨드 EC2 인스턴스 유형을 사용하면 신뢰할 수 있고 예측 가능한 유형의 워크로드를 얻게 된다.

    • 최소 1년을 사용해야 하는 EC2 예약 인스턴스를 사용하여 비용을 절약할 수 있다. 장기 실행해야 하는 마스터 노드와 코어 노드에 적합하다.

    • 언제든 종료될 수 있는 스팟 인스턴스는 신뢰도는 떨어지지만 저렴하여 태스크 노드에 활용하기 좋다.

  • 장기 실행 클러스터로 사용할 수도 있고, 임시 클러스터를 사용해 특정 작업을 수행하고 분석 완료 후에 삭제할 수 있다.

QuickSight

  • 서버리스 머신 러닝 기반 비즈니스 인텔리전스 서비스

  • 대시보드를 생성하고 소유한 데이터 소스와 연결할 수 있다.

  • 빠르고, 오토 스케일링이 가능하다.

  • 웹사이트에 임베드할 수 있으며 세션당 비용을 지불해야 한다.

  • 비즈니스 분석, 시각화, 시각화된 정보를 통한 임시 분석 수행, 데이터를 활용한 비즈니스 인사이트 획득에 활용할 수 있다.

  • SPICE 엔진

    • 인 메모리 연산 엔진이며 Amazon QuickSight로 데이터를 직접 가져올 때 사용된다.

    • Amazon QuickSight가 이미 다른 DB와 연결되어 있을 때는 작동하지 않는다.

  • 엔터프라이즈 에디션에서는 액세스 권한이 없는 사용자에게 일부 열이 표시되지 않도록 열 수준 보안(CLS)을 설정할 수 있다.

  • 데이터 소스로는 다양하게 통합 가능하다.

    • RDS, Aurora, Athena, Redshift, S3, Opensearch, Timestream 등 다양한 AWS 서비스와 연결할 수 있다.

    • SaaS인 Salesforce와 Jira 등과도 통합 가능하다.

    • Teradata 같은 타사 데이터베이스와 통합 가능하다.

    • 내부적으로 JDBC 프로토콜을 사용하는 온프레미스 데이터베이스와 통합 가능하다.

    • Excel 파일, CSV 파일, JSON 파일, TSV 파일, 로그 형식의 ELF 및 CLF 등의 데이터 소스를 가져올 수 있다.

  • 대시보드 및 분석

    • 사용자와 그룹을 정의할 수 있다. 그룹은 엔터프라이즈 버전에만 제공된다. IAM의 사용자와는 다른 개념이다.

    • 대시보드는 읽기 전용 스냅샷이며 분석 결과를 공유할 수 있다. 또한 분석에 대한 설정(필터, 파라미터 등)을 보존한다.

    • 특정 사용자 또는 그룹과 분석 결과나 대시보드를 공유할 수 있다.

    • 액세스 권한이 있는 사용자는 기본 데이터를 볼 수도 있다.

Glue

  • 추출과 변환 로드 서비스를 관리하는 ETL 서비스

  • 분석을 위해 데이터를 준비하고 변환한다.

  • 완전한 서버리스 서비스이다.

  • 예를 들어 S3 버킷이나 Amazon RDS 데이터베이스에 있는 데이터를 데이터 웨어하우스인 Redshift에 로드할 경우, Glue를 사용해 데이터를 추출한 다음 일부 데이터를 필터링하거나열을 추가하는 등 데이터를 변형하여 Redshift 데이터 웨어하우스에 로드할 수 잇다.

  • Athena에서 사용하기 적합한 Parquet 형식으로 변환할 수도 있다. S3에 데이터가 추가되면 람다 함수가 Glue ETL Job을 트리거시켜, S3에서 CSV 파일을 가져온 후 Glue 서비스 내에서 Parquet 형식으로 변환하도록 한다. 이후 다른 S3 버킷으로 데이터를 내보내어 Amazon Athena가 분석하도록 할 수 있다.

  • Glue Data Catalog

    • Glue 데이터 크롤러를 실행해 Amazon S3, Amazon RDS, Amazon DynamoDB 또는 호환 가능한 온프레미스 JDBC 데이터베이스에 연결하여 데이터베이스의 테이블 열, 데이터 형식 등의 모든 메타 데이터를 Glue 데이터 카탈로그에 기록할 수 있다.

    • ETL을 수행하기 위한 Glue 작업에 활용될 모든 데이터베이스, 테이블 메타 데이터를 준비할 수 있다.

    • Amazon Athena, Amazon Redshift Spectrum, Amazon EMR는 데이터와 스키마를 검색할 때 백그라운드에서 AWS Glue Data Catalog를 활용한다.

  • 다음과 같은 기능들을 추가적으로 제공한다.

    • Glue Job Bookmarks

      • 새 ETL 작업을 실행할 때 이전 데이터의 재처리를 방지한다.

    • Glue Elastic Views

      • SQL을 사용해 여러 데이터 스토어의 데이터를 결합하고 복제한다.

      • 커스텀 코드를 지원하지 않으며, Glue가 원본 데이터의 변경 사항을 모니터링한다.

    • Glue DataBrew

      • 사전 빌드된 변환을 사용해 데이터를 정리하고 정규화한다.

    • Glue Studio

      • ETL 작업을 생성, 실행 및 모니터링하는 GUI

    • Glue Streaming ETL

      • Apache Spark Structured Streaming 위에 빌드되며 ETL 작업을 배치 작업이 아니라 스트리밍 작업으로 실행할 수 있다.

      • Kinesis Data Streaming Kafka 또는 AWS의 관리형 Kafka인 MSK에서 Glue 스트리밍 ETL을 사용해 데이터를 읽을 수 있다.

Lake Formation

  • 데이터 레이크란 데이터 분석을 위해 모든 데이터를 한곳으로 모아 주는 중앙 집중식 저장소이다.

  • Lake Formation은 데이터 레이크 생성을 수월하게 해 주는 완전 관리형 서비스이다.

  • 보통 수개월씩 걸리는 데이터 처리 작업을 며칠 만에 완료할 수 있다.

  • 데이터 레이크에서 데이터 검색, 정제, 변환, 추출이 가능하다.

  • 여러 작업들을 자동화한다. 이를 통해 데이터 수집, 정제, 카탈로그화, 복제 혹은 기계 학습(ML) 변환 기능으로 중복 제거를 수행할 수 있다.

  • 정형 데이터와 비정형 데이터 소스를 결합할 수 있다.

  • 블루프린트를 제공하여 데이터를 데이터 레이크로 마이그레이션하는 것을 도와준다. Amazon S3, Amason RDS 온프레미스의 RDB, NoSQL DB 등에서 지원된다.

  • 애플리케이션을 연결할 때 행, 열 수준의 세분화된 액세스 제어를 할 수도 있다.

  • AWS Glue 위에 빌드되는 계층이지만 Glue와 직접 상호 작용하지 않는다.

아키텍처

  • 데이터 소스로 Amazon S3 RDS, Aurora, SQL, NoSQL 같은 온프레미스 데이터베이스를 사용할 수 있다. 이 때 Lake Formation의 블루프린트를 통해 데이터를 추출(ingest)한다.

  • Lake Formation에는 소스 크롤러와 ETL 및 데이터 준비 도구 데이터 카탈로깅 도구가 포함된다. 이는 Glue의 기본 서비스에 해당된다. 데이터를 보호하는 보안 설정과 액세스 제어도 포함된다.

  • Athena, Redshift, EMR, Apache Spark 프레임워크 같은 분석 도구가 Lake Formation의 데이터를 사용하게 된다.

중앙화된 권한

  • 사용자는 허용된 데이터에만 읽기 권한이 있어야 한다.

  • Athena와 QuickSight로 데이터 분석을 할 때, S3, RDS, Aurora 같이 각 데이터 소스마다 분석 툴에 대한 권한을 부여하게 되면 보안의 관리 요소가 증가한다.

  • Lake Formation에 주입된 모든 데이터는 중앙 S3 버킷에 저장되지만 모든 액세스 제어와 행, 열 수준 보안은 Lake Formation 내에서 관리된다.

  • Athena, QuickSight 등 어떤 도구를 사용하든 Lake Formation에 연결하면 한곳에서 보안을 관리할 수 있다.

Kinesis Data Analytics

SQL 애플리케이션용 Kinesis Data Analytics

  • Kinesis Data Streams와 Kinesis Data Firehose의 데이터를 SQL 문을 기반으로 실시간 분석할 수 있도록 해주는 서비스이다.

  • Kinesis Data Streams와 Kinesis Data Firehose 중 하나의 데이터 소스에서 데이터를 읽는다.

  • SQL 문을 적용하여 실시간 분석을 처리할 수 있다.

  • Amazon S3 버킷의 데이터를 참조해 참조 데이터를 조인할 수도 있다.

  • Kinesis Data Streams 또는 Kinesis Data Firehose에 데이터를 전송할 수 있다.

    • Kinesis Data Streams는 Kinesis Data Analytics의 실시간 쿼리로 스트림을 생성하여 AWS Lambda, EC2의 애플리케이션에서 실시간으로 처리하도록 할 수 있다.

    • Kinesis Data Firehose로 바로 전송하는 경우 Amazon S3, Amazon Redshift 혹은 Amazon OpenSearch 등 Firehose 타겟으로 전송된다.

  • 특징

    • 완전 관리형 서비스이므로 서버를 프로비저닝하지 않는다.

    • 오토 스케일링이 가능하다.

    • Kinesis Data Analytics에 전송된 데이터만큼 비용을 지불한다.

    • 주로 시계열 분석과 실시간 대시보드와 실시간 지표 용도로 사용된다.

  • Apache Flink를 사용하면 Java, Scala, SQL로 애플리케이션을 작성하고 스트리밍 데이터를 처리, 분석할 수 있다.

  • Kinesis Data Analytics의 Flink 전용 클러스터에서 Flink 애플리케이션을 백그라운드로 실행할 수 있다.

  • Apache Flink을 사용해 두 개의 메인 데이터 소스인 Kinesis Data Streams나 Amazon MSK의 데이터를 읽을 수 있다.

  • Apaches Flink는 표준 SQL보다 훨씬 강력하기 때문에 고급 쿼리 능력이나 필요하거나 Kinesis Data Streams나 AWS의 관리형 Kafka인 Amazon MSK 같은 서비스로부터 스트리밍 데이터를 읽는 능력이 필요할 때 사용한다.

  • 컴퓨팅 리소스를 자동 프로비저닝할 수 있고 병렬 연산과 오토 스케일링을 할 수 있다.

  • 체크포인트와 스냅샷으로 구현되는 애플리케이션 백업이 가능하다.

  • Apache Flink는 Kinesis Data Firehose의 데이터는 읽지 못하므로, Kinesis Data Firehose에서 데이터를 읽고 실시간 분석하려면 SQL 애플리케이션용 Kinesis Data Analytics를 사용해야 한다.

MSK

  • AWS의 완전 관리형 Kafka 클러스터 서비스

  • MSK 자체적으로 카프카 브로커 노드와 Zookeeper 노드를 생성 및 관리한다.

  • 고가용성을 위해 VPC의 클러스터를 최대 세 개의 다중 AZ 전역에 배포한다.

  • 일반적인 Kafka 장애를 자동 복구한다.

  • EBS 볼륨에 데이터를 저장할 수 있다. 비용만 지불하면 원하는 기간 만큼 계속 저장 가능하다.

  • Amazon MSK 서버리스

    • MSK에서 Apache Kafka를 실행하지만 서버 프로비저닝이나 용량 관리가 필요 없다.

    • MSK가 리소스를 자동으로 프로비저닝하고 컴퓨팅과 스토리지를 스케일링한다.

  • Apache Kafka는 데이터를 스트리밍하는 방식이다. Kafka 클러스터는 여러 브로커로 구성되고 데이터를 생산하는 생산자는 Kinesis, IoT, RDS 등의 데이터를 클러스터에 주입한다.

  • Kafka 토픽으로 데이터를 전송하면 해당 데이터는 다른 브로커로 복제된다.

  • Kafka 토픽은 실시간으로 데이터를 스트리밍하고, 소비자는 데이터를 소비하기 위해 토픽을 폴링한다.

  • 소비자

    • 데이터로 원하는 대로 처리하거나 EMR, S3, SageMaker, Kinesis RDS 등의 대상으로 보내 처리할 수 있다.

    • Apache Flink용 Kinesis Data Analytics를 사용해 Apache Flink 앱을 실행하고 MSK 클러스터의 데이터를 읽어 분석할 수 있다.

    • Apache Spark Streaming으로 구동된 AWS Glue로 ETL 작업을 스트리밍할 수 있다.

    • Amazon MSK를 이벤트 소스로 이용해 Lambda 함수가 호출되도록 할 수 있다.

    • 자체 Kafka 소비자를 생성해 EC2, EKS 등에서 실행할 수 있다.

  • Kinesis Data Streams와의 차이점

    • 메시지 크기 제한: Kinesis Data Streams는 1MB로 제한되어 있지만 Amazon MSK에서는 1MB이 기본값이고 더 큰 메시지를 가지도록 설정 가능하다.

    • 데이터 파티셔닝: Kinesis Data Streams에선 샤드로 나누어 데이터를 스트리밍한다. 용량 확장/축소 시 샤드 분할/병합 작업이 필요하다. Amazon MSK에선 Kafka 토픽을 통해 파티셔닝한다. 토픽 확장만 가능하며, 파티션을 제거하는 기능은 없다.

    • TLS: Kinesis Data Streams에는 TLS 전송 중 암호화 기능이 있고, Amazon MSK에는 평문과 TLS 전송 중 암호화 기능이 있다.

    • 저장된 데이터 암호화: 두 클러스터 모두 가능하다.

빅데이터 수집 파이프라인

  • 빅데이터 수집 파이프라인의 예시는 다음과 같다.

  • IoT 디바이스들이 실시간으로 데이터를 생산한다. Amazon Cloud Services의 IoT Core를 통해 데이터를 수집하고 IoT 디바이스를 관리할 수 있다.

  • IoT Core는 데이터를 Kinesis Data Stream으로 전송한다. 빅데이터를 Kinesis 서비스로 실시간으로 파이프라이닝 할 수 있다.

  • Kinesis Data Stream은 Kinesis Data Firehose에 데이터를 전송한다.

  • Kinesis Data Firehose는 정해진 주기마다 Amazon S3 ingestion(수집) 버킷으로 데이터를 업로드할 수 있다. 이 과정에서 람다 함수를 이용해 데이터를 정리하거나 매우 빠르게 변환할 수 있다.

  • 수집 버킷을 통해 SQS 큐 혹은 람다를 작동시킬 수 있다.

  • Lambda는 Amazon Athena의 SQL 쿼리를 작동시켜 수집 버킷에서 데이터를 꺼내고 SQL 쿼리를 서버리스로 수행시킨다.

  • 쿼리 결과는 S3의 reporting(보고) 버킷으로 전달되어 QuickSight를 통해서 바로 시각화할 수도 있고, Redshift 같은 데이터 웨어하우스로 로드하여 추가적인 분석을 거친 후 QuickSight를 통해 시각화할 수 있다.

Last updated