🐾
개발자국
  • 🐶ABOUT
  • 🚲프로그래밍
    • 객체 지향 프로그래밍
    • 오브젝트
      • 1장: 객체, 설계
      • 2장: 객체지향 프로그래밍
      • 3장: 역할, 책임, 협력
      • 4장: 설계 품질과 트레이드오프
      • 5장: 책임 할당하기
      • 6장: 메시지와 인터페이스
      • 7장: 객체 분해
      • 8장: 의존성 관리하기
      • 9장: 유연한 설계
      • 10장: 상속과 코드 재사용
      • 11장: 합성과 유연한 설계
      • 12장: 다형성
      • 13장: 서브클래싱과 서브타이핑
      • 14장: 일관성 있는 협력
      • 15장: 디자인 패턴과 프레임워크
    • 도메인 주도 개발 시작하기
      • 1장: 도메인 모델 시작하기
      • 2장: 아키텍처 개요
      • 3장: 애그리거트
      • 4장: 리포지토리와 모델 구현
      • 5장: 스프링 데이터 JPA를 이용한 조회 기능
      • 6장: 응용 서비스와 표현 영역
      • 7장: 도메인 서비스
      • 8장: 애그리거트 트랜잭션 관리
      • 9장: 도메인 모델과 바운디드 컨텍스트
      • 10장: 이벤트
      • 11장: CQRS
    • 클린 아키텍처
      • 만들면서 배우는 클린 아키텍처
        • 계층형 아키텍처의 문제와 의존성 역전
        • 유스케이스
        • 웹 어댑터
        • 영속성 어댑터
        • 아키텍처 요소 테스트
        • 경계 간 매핑 전략
        • 애플리케이션 조립
        • 아키텍처 경계 강제하기
        • 지름길 사용하기
        • 아키텍처 스타일 결정하기
    • 디자인 패턴
      • 생성(Creational) 패턴
        • 팩토리 패턴
        • 싱글톤 패턴
        • 빌더 패턴
        • 프로토타입 패턴
      • 행동(Behavioral) 패턴
        • 전략 패턴
        • 옵저버 패턴
        • 커맨드 패턴
        • 템플릿 메서드 패턴
        • 반복자 패턴
        • 상태 패턴
        • 책임 연쇄 패턴
        • 인터프리터 패턴
        • 중재자 패턴
        • 메멘토 패턴
        • 비지터 패턴
      • 구조(Structural) 패턴
        • 데코레이터 패턴
        • 어댑터 패턴
        • 퍼사드 패턴
        • 컴포지트 패턴
        • 프록시 패턴
        • 브리지 패턴
        • 플라이웨이트 패턴
      • 복합 패턴
  • 시스템 설계
    • 1. 사용자 수에 따른 규모 확장성
    • 2. 개략적 규모 추정
    • 3. 시스템 설계 접근법
    • 4. 처리율 제한 장치
    • 5. 안정 해시
    • 6. 키-값 저장소
    • 7. 유일한 ID 생성기
    • 8. URL 단축기
    • 9. 웹 크롤러
    • 10. 알림 시스템
    • 11. 뉴스 피드
    • 12. 채팅 시스템
    • 13. 검색어 자동완성
    • 14. 유튜브 스트리밍
    • 15. 구글 드라이브
    • ⭐️. 캐싱 전략
    • ⭐️. 재고 시스템으로 알아보는 동시성이슈 해결방법
    • ⭐️. 실습으로 배우는 선착순 이벤트 시스템
  • 🏝️자바
    • 자바의 내부 속으로
      • Java 언어의 특징
      • JDK
      • JVM
        • 메모리 관리
        • Garbage Collector
          • 기본 동작
          • Heap 영역을 제외한 GC 처리 영역
          • (WIP) GC 알고리즘
        • 클래스 로더
      • 자바 실행 방식
      • 메모리 모델과 관리
      • 바이트 코드 조작
      • 리플렉션
      • 다이나믹 프록시
      • 어노테이션 프로세서
    • 자바의 기본
      • 데이터 타입, 변수, 배열
    • 이펙티브 자바
      • 2장: 객체의 생성과 파괴
        • item 1) 생성자 대신 정적 팩토리 메서드를 고려하라
        • item2) 생성자에 매개변수가 많다면 빌더를 고려하라
        • item3) private 생성자나 열거 타입으로 싱글톤임을 보증하라
        • item4) 인스턴스화를 막으려면 private 생성자를 사용
        • item5) 자원을 직접 명시하는 대신 의존 객체 주입 사용
        • item6) 불필요한 객체 생성 지양
        • item7) 다 쓴 객체는 참조 해제하라
        • item8) finalizer와 cleaner 사용 자제
        • item9) try-with-resources를 사용하자
      • 3장: 모든 객체의 공통 메서드
        • item 10) equals는 일반 규약을 지켜 재정의 하자
        • item 11) equals 재정의 시 hashCode도 재정의하라
        • item 12) 항상 toString을 재정의할 것
        • item 13) clone 재정의는 주의해서 진행하라
        • item 14) Comparable 구현을 고려하라
      • 4장: 클래스와 인터페이스
        • item 15) 클래스와 멤버의 접근 권한을 최소화하라
        • item 16) public 클래스에서는 public 필드가 아닌 접근자 메서드를 사용하라
        • item 17) 변경 가능성을 최소화하라
        • item 18) 상속보다는 컴포지션을 사용하라
        • item 19) 상속을 고려해 설계하고 문서화하고, 그러지 않았다면 상속을 금지하라
        • item 20) 추상 클래스보다는 인터페이스를 우선하라
        • item 21) 인터페이스는 구현하는 쪽을 생각해 설계하라
        • item 22) 인터페이스는 타입을 정의하는 용도로만 사용하라
        • item 23) 태그 달린 클래스보다는 클래스 계층구조를 활용하라
        • item 24) 멤버 클래스는 되도록 static으로 만들라
        • item 25) 톱레벨 클래스는 한 파일에 하나만 담으라
      • 5장: 제네릭
        • item 26) 로 타입은 사용하지 말 것
        • item 27) unchecked 경고를 제거하라
        • item 28) 배열보다 리스트를 사용하라
        • item 29) 이왕이면 제네릭 타입으로 만들라
        • item 30) 이왕이면 제네릭 메서드로 만들라
        • item 31) 한정적 와일드카드를 사용해 API 유연성을 높이라
        • item 32) 제네릭과 가변 인수를 함께 사용
        • item 33) 타입 안전 이종 컨테이너를 고려하라
      • 6장: 열거 타입과 어노테이션
        • item 34) int 상수 대신 열거 타입을 사용하라
        • item 35) ordinal 메서드 대신 인스턴스 필드를 사용하라
        • item 36) 비트 필드 대신 EnumSet을 사용하라
        • item 37) ordinal 인덱싱 대신 EnumMap을 사용하라
        • item 38) 확장할 수 있는 열거 타입이 필요하면 인터페이스를 사용하라
        • item 39) 명명 패턴보다 어노테이션을 사용하라
        • item 40) @Override 어노테이션을 일관되게 사용하라
        • item 41) 정의하려는 것이 타입이라면 마커 인터페이스를 사용하라
      • 7장: 람다와 스트림
        • item 42) 익명 클래스보다는 람다를 사용하라
        • item 43) 람다보다는 메서드 참조를 사용하라
        • item 44) 표준 함수형 인터페이스를 사용하라
        • item 45) 스트림은 주의해서 사용하라
        • item 46) 스트림에서는 부작용 없는 함수를 사용하라
        • item 47) 반환 타입으로는 스트림보다 컬렉션이 낫다
        • item 48) 스트림 병렬화는 주의해서 적용하라
      • 8장: 메서드
        • item 49) 매개변수가 유효한지 검사하라
        • item 50) 적시에 방어적 복사본을 만들라
        • item 51) 메서드 시그니처를 신중히 설계하라
        • item 52) 다중정의는 신중히 사용하라
        • item 53) 가변인수는 신중히 사용하라
        • item 54) null이 아닌, 빈 컬렉션이나 배열을 반환하라
        • item 55) 옵셔널 반환은 신중히 하라
        • item 56) 공개된 API 요소에는 항상 문서화 주석을 작성하라
      • 9장: 일반적인 프로그래밍 원칙
        • item 57) 지역 변수의 범위를 최소화하라
        • item 58) 전통적인 for문보다 for-each문을 사용하기
        • item 59) 라이브러리를 익히고 사용하라
        • item 60) 정확한 답이 필요하다면 float, double은 피하라
        • item 61) 박싱된 기본타입보단 기본 타입을 사용하라
        • item 62) 다른 타입이 적절하다면 문자열 사용을 피하라
        • item 63) 문자열 연결은 느리니 주의하라
        • item 64) 객체는 인터페이스를 사용해 참조하라
        • item 65) 리플렉션보단 인터페이스를 사용
        • item 66) 네이티브 메서드는 신중히 사용하라
        • item 67) 최적화는 신중히 하라
        • item 68) 일반적으로 통용되는 명명 규칙을 따르라
      • 10장: 예외
        • item 69) 예외는 진짜 예외 상황에만 사용하라
        • item 70) 복구할 수 있는 상황에서는 검사 예외를, 프로그래밍 오류에는 런타임 예외를 사용하라
        • item 71) 필요 없는 검사 예외 사용은 피하라
        • item 72) 표준 예외를 사용하라
        • item 73) 추상화 수준에 맞는 예외를 던지라
        • item 74) 메서드가 던지는 모든 예외를 문서화하라
        • item 75) 예외의 상세 메시지에 실패 관련 정보를 담으라
        • item 76) 가능한 한 실패 원자적으로 만들라
        • item 77) 예외를 무시하지 말라
      • 11장: 동시성
        • item 78) 공유 중인 가변 데이터는 동기화해 사용하라
        • item 79) 과도한 동기화는 피하라
        • item 80) 스레드보다는 실행자, 태스크, 스트림을 애용하라
        • item 81) wait와 notify보다는 동시성 유틸리티를 애용하라
        • item 82) 스레드 안전성 수준을 문서화하라
        • item 83) 지연 초기화는 신중히 사용하라
        • item 84) 프로그램의 동작을 스레드 스케줄러에 기대지 말라
      • 12장: 직렬화
        • item 85) 자바 직렬화의 대안을 찾으라
        • item 86) Serializable을 구현할지는 신중히 결정하라
        • item 87) 커스텀 직렬화 형태를 고려해보라
        • item 88) readObject 메서드는 방어적으로 작성하라
        • item 89) 인스턴스 수를 통제해야 한다면 readResolve보다는 열거 타입을 사용하라
        • item 90) 직렬화된 인스턴스 대신 직렬화 프록시 사용을 검토하라
    • 모던 자바 인 액션
      • 1장: 자바의 역사
      • 2장: 동작 파라미터화
      • 3장: 람다
      • 4장: 스트림
      • 5장: 스트림 활용
      • 6장: 스트림으로 데이터 수집
      • 7장: 병렬 데이터 처리와 성능
      • 8장: 컬렉션 API 개선
      • 9장: 람다를 이용한 리팩토링, 테스팅, 디버깅
      • 10장: 람다를 이용한 DSL
      • 11장: null 대신 Optional
      • 12장: 날짜와 시간 API
      • 13장: 디폴트 메서드
      • 14장: 자바 모듈 시스템
      • 15장: CompletableFuture와 Reactive 개요
      • 16장: CompletableFuture
      • 17장: 리액티브 프로그래밍
      • 18장: 함수형 프로그래밍
      • 19장: 함수형 프로그래밍 기법
      • 20장: 스칼라 언어 살펴보기
    • 자바의 이모저모
      • Javax
      • Objects
      • NIO
      • Thread
      • Concurrent
        • Atomic
        • Executor, ExecutorService
        • Interrupt
      • Assertions
    • Netty
      • 네티 맛보기
      • 네티의 주요 특징
      • 채널 파이프라인
      • 이벤트 루프
      • 바이트 버퍼
      • 부트스트랩
      • 네티 테스트
      • 코덱
      • 다양한 ChannelHandler와 코덱
      • 웹소켓
      • UDP 브로드캐스팅
    • 자바 병렬 프로그래밍
      • 2장: 스레드 안전성
      • 15장: 단일 연산 변수와 논블로킹 동기화
  • 🏖️코틀린
    • 코틀린 인 액션
      • 코틀린 언어의 특징
      • 코틀린 기초
      • 함수 정의와 호출
      • 클래스, 객체, 인터페이스
      • 람다
      • 타입 시스템
      • 연산자 오버로딩과 기타 관례
      • 고차 함수
      • 제네릭스
      • 어노테이션과 리플렉션
      • DSL 만들기
  • 🌸스프링
    • Spring Core
      • Cron Expression
      • Bean
        • Lifecycle
        • Aware
    • Spring MVC
    • Spring Security
      • 로그인 처리
      • 로그아웃 처리
      • JWT 인증 방식
      • 메소드별 인가 처리
    • Spring Data
      • Pageable
      • Spring Data Couchbase
      • Spring Data Redis
        • Serializer
    • Spring REST Docs
    • Spring Annotations
    • Spring Cloud
      • Service Discovery
      • API Gateway
      • Spring Cloud Config
      • MicroService Communication
      • Data Synchronization
    • Test
      • 테스트 용어 정리
      • JUnit
      • Spring Boot Test
      • Mockito
    • QueryDSL
      • 프로젝트 환경설정
      • 기본 문법
      • 중급 문법
      • 순수 JPA와 QueryDSL
      • 스프링 데이터 JPA와 QueryDSL
    • Lombok
      • @Data
      • @Builder
      • Log Annotations
  • 🕋DB
    • MySQL
      • CentOS7에서 MySQL 8 버전 설치하기
    • MongoDB
      • 
    • Redis
      • Sentinel
      • Cluster
      • Transaction
      • 자료구조
        • String
        • List
        • Set
        • Hash
        • Bitmaps
        • SortedSet
      • Lettuce 단일 서버, 클러스터 서버, 풀링 사용 방법
  • 📽️인프라
    • 리눅스
      • 주요 명령어 모음
    • Docker
      • Docker
      • Docker Compose
      • Docker Swarm
      • Docker Network
      • Linux에서 root 아닌 유저로 docker 실행하기
    • Kubernetes
      • 기초 개념
      • Pod
      • Configuration
      • ReplicationSet
      • Network
      • ConfigMap & Secret
      • Volume, Mount, Claim
      • Controller
      • Multi Container Pod
      • StatefulSet & Job
      • Rollout & Rollback
      • Helm
      • 개발 워크플로우와 CI/CD
      • Container Probes
      • Resource Limit
      • Logging & Monitoring
      • Ingress
      • Security
      • Multi Node/Architecture Cluster
      • Workload & Pod management
      • CRD & Operator
      • Serverless Function
      • K8S Cheat Sheet
    • Kafka
      • 카프카 개요
      • 카프카 설치 및 실습
      • Kafka Broker
      • Topic, Partition, Record
      • Producer
      • Consumer
      • Kafka Streams
      • Kafka Connect
      • MirrorMaker
  • AWS
    • AWS Console / CLI / SDK
    • IAM
    • EC2
      • EC2 Advanced
    • ELB / ASG
    • RDS / Aurora / ElastiCache
    • DynamoDB
    • DocumentDB / Neptune / Keyspaces / QLDB / Timestream
    • Route 53
    • Beanstalk
    • Solution Architect
    • S3
      • 보안
    • CloudFront
    • Global Accelerator
    • AWS Storage
    • Messaging
    • Container
    • Serverless
    • Data Analysis
    • Machine Learning
    • Monitoring
    • Security
    • VPC
    • Data Migration
    • 기타 서비스
  • 🏔️CS
    • 운영 체제
      • Introduction
      • System Structures
      • Process
      • Synchronization
      • Muitithreaded Programming
      • Process Scheduling
      • Memory Management
      • Virtual Memory
    • 네트워크
      • 네트워크 기초
      • 네트워크 통신 방식
      • OSI 7계층
        • 1계층: 물리계층
        • 2계층: 데이터 링크 계층
        • 3계층: 네트워크 계층
        • 4계층: 전송 계층
        • 5계층: 세션 계층
        • 6계층: 표현 계층
        • 7계층: 응용 계층
      • TCP/IP 스택
      • ARP
      • 데이터 크기 조절
      • WDM
      • NAT
      • DNS
      • DHCP
      • VPN
      • 네이글 알고리즘
      • 서버 네트워크
      • 네트워크 보안
        • 보안의 기본
        • 보안 장비
      • 이중화
    • 데이터베이스
      • 트랜잭션
    • 컴퓨터 구조
      • 개요
      • Instruction Set Architecture
      • Procedure Call & Return
      • Linking
      • Pipeline
      • Memory Hierarchy
      • Virtual Memory
      • Interrupt / Exception, IO
    • 자료 구조
      • Array
      • List
      • Map
      • Set
      • Queue
      • PriorityQueue
      • Stack
    • 웹 기술
      • HTTP
        • 쿠키와 세션
  • 🪂Big Data
    • Apache Hadoop
  • 🕹️ETC
    • Git
      • 내부 구조
      • 내가 자주 사용하는 명령어 모음
      • Commit Convention
    • 이력서 작성하기
    • Embedded
      • 라즈베리파이에서 네오픽셀 적용기
    • 기술블로그 모음집
Powered by GitBook
On this page
  • 토픽과 파티션
  • 적정 파티션 개수
  • 토픽 정리 정책
  • ISR (In-Sync-Replicas)
  • 의미있는 토픽 작명 방법
  • 레코드
  1. 인프라
  2. Kafka

Topic, Partition, Record

PreviousKafka BrokerNextProducer

Last updated 8 months ago

토픽과 파티션

  • 카프카에서 가장 중요한 개념이다.

  • 토픽이란 데이터를 구분하기 위해 사용하는 단위로, 1개 이상의 파티션을 소유한다.

  • Producer가 보낸 데이터들이 저장되며, 각각의 데이터를 레코드라고 부른다.

  • 토픽의 데이터인 레코드를 병렬로 처리할 수 있도록 하기 위해 데이터를 파티션 단위로 나눈다.

  • 파티션은 큐와 비슷한 FIFO 구조이며 파티션의 데이터는 컨슈머가 소비하게 된다.

적정 파티션 개수

  • 파티션의 개수는 카프카의 성능과 관련이 있다. 데이터의 처리량, 메시지 키 사용 여부, 브로커/컨슈머 영향도 등을 고려해 파티션 개수를 설정해야 한다.

  • 데이터의 처리 속도를 올리려면 컨슈머의 처리량을 늘리거나 컨슈머를 추가해 병렬 처리량을 늘려야 한다.

  • 컨슈머의 처리량을 늘리려면 서버 사양을 올리거나 GC 튜닝을 해야 한다. 하지만 컨슈머 특성 상 외부 시스템과 연동되는 경우가 많으므로 일정 수준 이상의 처리량을 넘기기는 거의 어렵다.

  • 컨슈머를 늘려 병렬 처리량을 늘리려면 파티션을 늘리고 컨슈머를 늘려야 한다.

  • 파티션 개수 공식은 다음과 같다. 예를 들어 초당 1000개의 레코드를 프로듀서에서 보내고 있고 컨슈머가 초당 100개의 데이터를 처리하고 있다면, 파티션 개수는 10개 이상이 되어야 한다.

    • (프로듀서 전송 데이터 량) < (컨슈머 데이터 처리량) * (파티션 개수)

  • 컨슈머 데이터 처리량을 구하기 위해서는 카프카에 더미 데이터를 넣어 테스트해보아야 한다. 이 때 로컬이나 테스트 환경에서 진행하는 것보다는 상용 환경에서 진행하는 것이 더 정확할 것이다.

  • 메시지 키를 기준으로 파티셔닝하는 전략을 사용할 경우 파티션 개수가 달라지면 해싱이 달라져 매핑되는 파티션도 달라지게 될 것이다. 만약 메시지 키를 사용하면서 컨슈머에서 처리하는 메시지의 순서가 보장되어야 한다면, 커스텀 파티셔너를 구현하거나 처음부터 파티션 개수를 넉넉하게 지정해야 한다.

  • 파티션은 브로커의 파일 시스템을 사용하므로 파티션이 늘어나면 파일 개수도 늘어난다. 하지만 운영 체제에서는 프로세스마다 열 수 있는 파일의 최대 개수를 제한하므로 각 브로커 당 파티션 개수를 확인하고, 만약 너무 많다면 브로커를 늘려야 한다.

토픽 정리 정책

  • delete policy

    • 명시적으로 토픽의 데이터를 삭제한다.

    • 데이터는 세그먼트 단위로 삭제된다. 세그먼트는 파티션마다 별개로 생성되어 오프셋 중 가장 작은 값이 세그먼트의 파일 이름이 된다.

    • 세그먼트는 여러 청크로 나뉘며, segment.bytes 옵션으로 세그먼트의 크기를 정할 수 있다.

    • 데이터를 저장하기 위해 사용중인 세그먼트는 액티브 세그먼트라고 한다.

    • 토픽의 데이터 삭제 기준은 시간 혹은 용량이 될 수 있다.

    • 카프카는 일정 주기마다 세그먼트 파일의 마지막 수정 시간이 retention.ms 속성값을 넘어가거나 세그먼트 파일의 크기가 retention.bytes를 넘어갔다면 해당 세그먼트 파일을 삭제한다.

  • compact policy

    • 여기서 의미하는 압축이란 메시지 키 마다 가지는 레코드 중 오래된 데이터를 삭제하는 것이다.

    • 메시지 키를 기준으로 제거하기 때문에 하나의 파티션에서 오프셋의 일부가 삭제되어 오프셋의 증가가 일정하지 않을 수 있다.

    • 스트림즈의 KTable과 같이 메시지 키를 기반으로 데이터를 처리할 때 유용하다. 메시지 키에 해당하는 가장 최신의 데이터만 유효한 경우 나머지 데이터는 제거하는 것이 좋기 때문이다.

    • 아래 그림에서 Ale, Ben 이라는 메시지 키에 대한 새로운 레코드가 생성되면 기존 레코드는 제거된다. Tim이라는 메시지 키에 대한 값이 null인 레코드가 들어오면 해당 메시지 키에 대한 모든 레코드를 제거하겠다는 의미를 나타냄도 확인할 수 있다.

    • min.cleanable.dirty.ratio 속성값은 액티브 세그먼트를 제외한 세그먼트들에 남아 있는 데이터의 테일 영역 레코드 개수와 헤드 영역 레코드 개수의 비율을 지정한다. 정확히는 (헤드 영역 메시지 개수) / (헤드 영역 메시지 개수 + 테일 영역 메시지 개수) 를 의미한다.

    • 테일 영역은 압축 정책에 의해 압축이 완료된 레코드를 의미한다. 이 영역에 존재하는 레코드들은 클린 로그라고 부른다.

    • 헤드 영역은 압축 전 레코드들을 의미하며 동일한 메시지 키를 가진 데이터가 존재할 수 있다. 이 영역에 존재하는 레코드들은 더티 로그라고 부른다.

    • 결국 더티 영역 메시지 비율이 얼마나 되는지에 따라 데이터 압축 시점이 정해진다.

    • 비율을 크게 설정하면 한 번에 압축되는 데이터의 양이 많지만, 압축이 될 때 까지 기다리면서 용량을 많이 차지하게 된다. 토픽별로 데이터 특성에 맞는 적절한 비율을 설정하는 것이 중요하다.

    • 아래 그림을 보면 총 로그 크기에 대한 더티 로그의 비율이 얼마인지와 메시지 타임스탬프와 현재 시각을 비교해 min.compaction.lag.ms, max.compaction.lag.ms 기준을 넘는지에 따라 압축 시기가 결정됨을 알 수 있다.

ISR (In-Sync-Replicas)

  • 리더 파티션과 팔로워 파티션이 모두 싱크된 상태를 의미한다.

  • 팔로워 파티션이 리더 파티션의 데이터를 복제하기 까지 시간이 걸린다. 따라서 리더 파티션에 데이터가 적재된 후 팔로워 파티션에 즉시 복제되지 않아 오프셋 차이가 발생할 수 있다.

  • 리더 파티션은 replica.lag.time.max.ms 속성값으로 입력된 주기마다 팔로워 파티션이 데이터를 복제한 상태인지 확인한다. 만약 이 때 데이터가 복제되지 않은 상태라면 팔로워 파티션에 문제가 생겼다고 판단하고 ISR 그룹에서 제외한다.

  • 아래 그림과 같이 토픽의 파티션들이 브로커에 나뉘어 있고, 같은 오프셋을 가지고 있다면 하나의 ISR 그룹으로 묶이게 된다.

  • ISR로 묶인 파티션들 중 팔로워는 리더의 데이터를 그대로 담고 있으므로 만약 새로운 리더가 필요할 때 선출될 자격이 있다. 반면 ISR에 속하지 못한 팔로워는 데이터 유실 가능성이 크므로 새로운 리더로 선출될 수 없다.

  • 만약 ISR 그룹에 팔로워 파티션이 없다면 리더 파티션이 재구동될 때 까지 기다려야 한다. 따라서 서비스가 중단될 수 있다.

  • 만약 데이터가 유실되는 것을 감수하면서 서비스가 중단되지 않도록 하려면 unclean.leader.election.enable 속성을 true로 두어 ISR에 속하지 않은 팔로워 파티션도 리더 파티션으로 선출되도록 할 수 있다.

의미있는 토픽 작명 방법

  • 어떤 개발환경에서 사용되는지, 어떤 애플리케이션에서 어떤 데이터 타입으로 사용되는지 나타낼 수 있어야 한다.

  • 다음과 같이 적합한 템플릿을 고안해 사용하면 좋다.

    • <환경>.<팀이름>.<애플리케이션이름>.<메시지타입>

      • ex) prod.marketing.sms-platform.json

    • <프로젝트이름>.<서비스이름>.<환경>.<이벤트이름>

      • ex) commerce.payment.prd.notification

  • 토픽 이름을 변경할 수 없으므로 초기에 신중히 정해야 한다.

레코드

  • 실질적으로 카프카에서 사용하는 데이터 단위이며 타임스탬프, 메시지 키, 메시지 값, 오프셋으로 구성되어 있다.

  • 프로듀서가 생성하여 브로커로 전송하며, 한 번 브로커에 적재되면 수정이 불가능하다.

  • 레코드가 브로커에 전송되면 타임스탬프(unix time)와 오프셋이 지정된다.

  • 메시지 키는 메시지 값을 순서대로 처리하거나 메시지 값의 종류를 나타내기 위해 사용한다. 또한 프로듀서가 토픽에 레코드를 전달할 때 메시지 키의 해시 값을 이용해 파티션을 할당한다.

  • 메시지 값에는 처리할 데이터가 들어가는데, 브로커에는 직렬화된 데이터가 들어오므로 컨슈머는 이를 역직렬화하여 사용해야 한다.

  • 레코드의 오프셋은 0 이상의 숫자이며 직접 지정할 수 없고 브로커에 저장될 때 이전 레코드의 오프셋 값 + 1로 할당된다.

출처

  • 아파치 카프카 애플리케이션 프로그래밍 책

📽️
https://developer.confluent.io/courses/architecture/compaction/