GitLab 내 ClickHouse
GitLab v19.1이 문서는 GitLab Rails 애플리케이션에서 ClickHouse를 사용하여 기능을 개발하는 방법에 대한 개괄적인 개요를 제공합니다. 대부분의 도구와 API는 불안정한 것으로 간주됩니다. ClickHouse 설치 문서에 설명된 대로 로컬에 ClickHouse를 설치합니다.
이 문서는 GitLab Rails 애플리케이션에서 ClickHouse를 사용하여 기능을 개발하는 방법에 대한 개괄적인 개요를 제공합니다.
대부분의 도구와 API는 불안정한 것으로 간주됩니다.
GDK 설정#
ClickHouse 서버 설정#
-
ClickHouse 설치 문서에 설명된 대로 로컬에 ClickHouse를 설치합니다. QuickInstall을 사용하면 현재 디렉터리에 설치되고, Homebrew를 사용하면
/opt/homebrew/bin/clickhouse에 설치됩니다. -
gdk.yml에 ClickHouse 섹션을 추가합니다.gdk.example.yml을 참조하세요. -
gdk.ymlClickHouse 구성 파일이 로컬 ClickHouse 설치 경로와 로컬 데이터 저장 경로를 가리키도록 조정합니다. 예를 들어:
clickhouse:
bin: "/opt/homebrew/bin/clickhouse"
enabled: true
# these are optional if we have more than one GDK:
# http_port: 8123
# interserver_http_port: 9009
# tcp_port: 9001
-
gdk reconfigure를 실행합니다. -
gdk start clickhouse로 ClickHouse를 시작합니다.
Rails 애플리케이션 구성#
- 예시 파일을 복사하고 자격 증명을 구성합니다:
cp config/click_house.yml.example config/click_house.yml
- 번들된
clickhouse client를 사용하여 데이터베이스를 생성합니다:
gdk clickhouse
create database gitlab_clickhouse_development;
create database gitlab_clickhouse_test;
설정 유효성 검사#
Rails 콘솔을 실행하고 간단한 쿼리를 실행합니다:
ClickHouse::Client.select('SELECT 1', :main)
# => [{"1"=>1}]
데이터베이스 스키마 및 마이그레이션#
ClickHouse 데이터베이스 마이그레이션을 생성하려면 다음을 실행합니다:
bundle exec rails generate gitlab:click_house:migration MIGRATION_CLASS_NAME
데이터베이스 마이그레이션을 실행하려면 다음을 실행합니다:
bundle exec rake gitlab:clickhouse:migrate
마지막 N개의 마이그레이션을 롤백하려면 다음을 실행합니다:
bundle exec rake gitlab:clickhouse:rollback:main STEP=N
또는 다음 명령어를 사용하여 모든 마이그레이션을 롤백합니다:
bundle exec rake gitlab:clickhouse:rollback:main VERSION=0
db/click_house/migrate 폴더에 Ruby 마이그레이션 파일을 생성하여 마이그레이션을 만들 수 있습니다. 파일 이름은 YYYYMMDDHHMMSS_description_of_migration.rb 형식의 타임스탬프로 시작해야 합니다.
# 20230811124511_create_issues.rb
# frozen_string_literal: true
class CreateIssues < ClickHouse::Migration
def up
execute <<~SQL
CREATE TABLE issues
(
id UInt64 DEFAULT 0,
title String DEFAULT ''
)
ENGINE = MergeTree
PRIMARY KEY (id)
SQL
end
def down
execute <<~SQL
DROP TABLE sync_cursors
SQL
end
end
딕셔너리 생성#
ClickHouse 딕셔너리는 비용이 많이 드는 JOIN 연산 없이 외부 소스의 조회를 통해 데이터를 풍부하게 만들 수 있어 쿼리 속도를 크게 향상시킵니다. 참조 데이터를 메모리에 캐시하거나 최적화된 레이아웃을 통해 캐시함으로써, 실시간 데이터 분석에 거의 즉각적인 접근을 가능하게 합니다.
GitLab 내에서는 자체(main) ClickHouse 데이터베이스를 참조하는 CLICKHOUSE 소스만 지원하며, 다른 외부 딕셔너리 참조는 지원되지 않습니다.
예를 들어, 특정 project_id 값에 대한 traversal_path를 조회하는 딕셔너리를 생성하는 방법은 다음과 같습니다:
class DictTest < ClickHouse::Migration
def up
definition = <<~SQL
CREATE DICTIONARY project_traversal_paths_dictionary
(
`id` UInt64,
`traversal_path` String
)
PRIMARY KEY id
SOURCE(
CLICKHOUSE(
QUERY 'SELECT id, traversal_path FROM (
SELECT id, traversal_path
FROM (
SELECT
id,
argMax(traversal_path, version) AS traversal_path,
argMax(deleted, version) AS deleted
FROM project_namespace_traversal_paths
GROUP BY id
)
WHERE deleted = false
)'
)
)
LIFETIME(MIN 300 MAX 500)
LAYOUT(CACHE(SIZE_IN_CELLS 1000000))
SQL
create_dictionary(definition, source_tables: ['project_namespace_traversal_paths'])
end
def down
execute('DROP DICTIONARY project_traversal_paths_dictionary')
end
end
project_namespace_traversal_paths 테이블은 project_id를 traversal_path 값에 매핑하는 비정규화된 ReplacingMergeTree 테이블입니다. 딕셔너리 정의에서 이 테이블을 사용하면, project_id로 traversal_path 값을 조회할 때 거의 O(1) 수준의 조회 성능을 달성할 수 있습니다.
ClickHouse 딕셔너리는 데이터베이스 자격 증명을 인수로 전달해야 하며, QUERY 인수에서 데이터베이스 테이블에 대한 전체 참조가 필요합니다. 이 과정을 단순화하기 위해 create_dictionary 메서드는 다음을 수행합니다:
-
구성된 ClickHouse 자격 증명을
CREATE DICTIONARY구문에 자동으로 주입합니다. -
QUERY의 테이블 앞에 데이터베이스 이름을 붙입니다. 이를 위해source_tables인수에 참여하는 테이블 목록이 올바르게 설정되어 있어야 합니다.
마이그레이션 후 딕셔너리는 다음과 같이 쿼리할 수 있습니다:
select dictGetOrDefault('project_traversal_paths_dictionary', 'traversal_path', 3, '0/');
-
project_traversal_paths_dictionary: 딕셔너리 이름 -
traversal_path: 요청된 칼럼 -
3: 프로젝트 ID 값 -
0/: 딕셔너리에서 레코드를 찾을 수 없는 경우의 기본값
딕셔너리 구성에 따라, 딕셔너리가 로드한 데이터가 오래된 상태일 수 있습니다. 딕셔너리를 사용할 때는 항상 일관성 요구 사항과 결국 일관성 없는 데이터를 수정하는 방법을 고려하세요.
배포 후 마이그레이션#
ClickHouse 데이터베이스 배포 후 마이그레이션을 생성하려면 다음을 실행합니다:
bundle exec rails generate gitlab:click_house:post_deployment_migration MIGRATION_CLASS_NAME
이러한 마이그레이션은 기본적으로 일반 마이그레이션과 함께 실행되지만, 예를 들어 프로덕션 배포 전에 SKIP_POST_DEPLOYMENT_MIGRATIONS 환경 변수를 사용하여 건너뛸 수 있습니다:
export SKIP_POST_DEPLOYMENT_MIGRATIONS=true
bundle exec rake gitlab:clickhouse:migrate
칼럼 압축 가이드라인#
새 테이블을 생성할 때 스토리지 효율성을 향상시키기 위해 특정 칼럼의 압축 설정을 조정하는 것을 고려하세요. 기본적으로 ClickHouse는 Self-managed 인스턴스에서 LZ4를 사용하여 데이터를 압축하며, ClickHouse Cloud는 ZSTD를 사용합니다. 칼럼 유형과 내용에 따라 특정 코덱을 사용하여 훨씬 더 나은 압축률을 달성할 수 있습니다.
데이터 유형별 권장 코덱#
기본 키 (또는 정렬된 칼럼)#
-
정수 / 타임스탬프:
CODEC(DoubleDelta, ZSTD)- 단조 증가 시퀀스에 최적화되어 있습니다. -
문자열:
CODEC(ZSTD(3))- 엔트로피가 높은 문자열에 대해 높은 압축률을 제공합니다.
표준 칼럼#
-
불리언:
CODEC(ZSTD(1)) -
증분 타임스탬프 (
created_at,updated_at):CODEC(Delta, ZSTD(1))- 델타 인코딩은 ZSTD가 압축하기 전에 증분 값을 훨씬 작게 만듭니다. -
UUID / 해시 (문자열로):
CODEC(ZSTD(1)) -
긴 텍스트 / JSON:
CODEC(ZSTD(3))- 더 높은 수준(최대 22)도 사용 가능하지만,3이 성능/압축률의 이상적인 설정입니다.
구현#
코덱은 각 칼럼에 대해 CREATE TABLE 구문에서 직접 정의됩니다:
CREATE TABLE example_table (
id UInt64 CODEC(DoubleDelta, ZSTD),
created_at DateTime64(3) CODEC(Delta, ZSTD(1)),
payload String CODEC(ZSTD(3))
) ENGINE = MergeTree()
ORDER BY id;
효율성 측정#
어떤 코덱을 사용할지 확실하지 않다면, 프로덕션과 유사한 데이터로 테스트 테이블을 생성하고 다음 쿼리를 실행하여 압축률을 확인하세요:
SELECT
name AS column_name,
formatReadableSize(sum(data_compressed_bytes)) AS compressed,
formatReadableSize(sum(data_uncompressed_bytes)) AS uncompressed,
round(sum(data_uncompressed_bytes) / sum(data_compressed_bytes), 2) AS ratio
FROM system.columns
WHERE table = 'your_table_name'
GROUP BY name
ORDER BY ratio DESC;
과도하게 최적화하지 마세요. 더 높은 압축 수준(예: ZSTD 10 이상)은 디스크 공간을 절약하지만, 쓰기 및 읽기 작업 시 CPU 오버헤드가 증가합니다. 스토리지 절감 효과가 크지 않은 한 기본값을 유지하세요.
데이터베이스 쿼리 작성#
ClickHouse 데이터베이스에서는 ORM(Object Relational Mapping)을 사용하지 않습니다. 주된 이유는 GitLab 애플리케이션이 ActiveRecord PostgreSQL 어댑터에 대한 많은 커스터마이징을 가지고 있으며, 애플리케이션이 일반적으로 모든 데이터베이스가 PostgreSQL을 사용한다고 가정하기 때문입니다. ClickHouse 관련 기능이 아직 초기 개발 단계에 있기 때문에, 여러 ActiveRecord 어댑터를 다룰 때 발견하기 어려운 버그와 긴 디버깅 시간을 피하기 위해 간단한 HTTP 클라이언트를 구현하기로 결정했습니다.
또한 ClickHouse는 ActiveRecord의 다른 어댑터와 같은 방식으로 사용되지 않을 수 있습니다. 접근 패턴이 기존 트랜잭션 데이터베이스와 다른데, ClickHouse는:
-
GROUP BY절을 사용한 중첩된 집계SELECT쿼리를 사용합니다. -
단일
INSERT구문을 사용하지 않습니다. 데이터는 백그라운드 job을 통해 배치로 삽입됩니다. -
다른 일관성 특성을 가지며, 트랜잭션이 없습니다.
-
데이터베이스 수준의 유효성 검사가 거의 없습니다.
데이터베이스 쿼리는 ClickHouse::Client gem의 도움으로 작성 및 실행됩니다.
events 테이블의 간단한 쿼리:
rows = ClickHouse::Client.select('SELECT * FROM events', :main)
플레이스홀더가 있는 쿼리를 사용할 때는 플레이스홀더 이름과 데이터 유형을 지정해야 하는 ClickHouse::Query 객체를 사용할 수 있습니다. 실제 변수 교체, 따옴표 처리 및 이스케이프는 ClickHouse 서버에서 수행됩니다.
raw_query = 'SELECT * FROM events WHERE id > {min_id:UInt64}'
placeholders = { min_id: Integer(100) }
query = ClickHouse::Client::Query.new(raw_query: raw_query, placeholders: placeholders)
rows = ClickHouse::Client.select(query, :main)
플레이스홀더를 사용할 때 클라이언트는 로깅 시스템에서 수집할 수 있는 플레이스홀더 값이 편집된 쿼리를 제공할 수 있습니다. to_redacted_sql 메서드를 호출하여 쿼리의 편집된 버전을 확인할 수 있습니다:
puts query.to_redacted_sql
ClickHouse는 요청당 하나의 구문만 허용합니다. 즉, 구문이 ; 문자로 종료된 후 다른 쿼리가 "주입"되는 일반적인 SQL 인젝션 취약점을 악용할 수 없습니다:
ClickHouse::Client.select('SELECT 1; SELECT 2', :main)
# ClickHouse::Client::DatabaseError: Code: 62. DB::Exception: Syntax error (Multi-statements are not allowed): failed at position 9 (end of query): ; SELECT 2. . (SYNTAX_ERROR) (version 23.4.2.11 (official build))
서브쿼리#
특수 Subquery 유형으로 쿼리 플레이스홀더를 지정하여 ClickHouse::Client::Query 클래스로 복잡한 쿼리를 구성할 수 있습니다. 라이브러리는 쿼리와 플레이스홀더를 올바르게 병합합니다:
subquery = ClickHouse::Client::Query.new(raw_query: 'SELECT id FROM events WHERE id = {id:UInt64}', placeholders: { id: Integer(10) })
raw_query = 'SELECT * FROM events WHERE id > {id:UInt64} AND id IN ({q:Subquery})'
placeholders = { id: Integer(10), q: subquery }
query = ClickHouse::Client::Query.new(raw_query: raw_query, placeholders: placeholders)
rows = ClickHouse::Client.select(query, :main)
# ClickHouse will replace the placeholders
puts query.to_sql # SELECT * FROM events WHERE id > {id:UInt64} AND id IN (SELECT id FROM events WHERE id = {id:UInt64})
puts query.to_redacted_sql # SELECT * FROM events WHERE id > $1 AND id IN (SELECT id FROM events WHERE id = $2)
puts query.placeholders # { id: 10 }
이름이 같지만 값이 다른 플레이스홀더가 있는 경우 쿼리에서 오류가 발생합니다.
쿼리 조건 작성#
여러 필터 조건이 있는 복잡한 폼을 다룰 때, 쿼리 조각을 문자열로 연결하여 쿼리를 작성하면 매우 복잡해질 수 있습니다. 여러 조건이 있는 쿼리의 경우 ClickHouse::Client::QueryBuilder 클래스를 사용할 수 있습니다. 이 클래스는 Arel gem을 사용하여 쿼리를 생성하며 ActiveRecord와 유사한 쿼리 인터페이스를 제공합니다.
builder = ClickHouse::Client::QueryBuilder.new('events')
query = builder
.where(builder.table[:created_at].lteq(Date.today))
.where(id: [1,2,3])
rows = ClickHouse::Client.select(query, :main)
데이터 삽입#
ClickHouse 클라이언트는 표준 쿼리 인터페이스를 통한 데이터 삽입을 지원합니다:
raw_query = 'INSERT INTO events (id, target_type) VALUES ({id:UInt64}, {target_type:String})'
placeholders = { id: 1, target_type: 'Issue' }
query = ClickHouse::Client::Query.new(raw_query: raw_query, placeholders: placeholders)
rows = ClickHouse::Client.execute(query, :main)
이 방식으로 데이터를 삽입하는 것은 다음 경우에 적합합니다:
-
테이블에 하나의 행을 추가해야 하는 설정 또는 구성 데이터를 포함하는 경우.
-
테스트 목적으로 데이터베이스에 테스트 데이터를 준비해야 하는 경우.
데이터를 삽입할 때는 항상 여러 행이 한 번에 삽입되는 배치 처리를 사용하도록 노력해야 합니다. 메모리에서 대용량 INSERT 쿼리를 빌드하는 것은 메모리 사용량이 증가하기 때문에 권장되지 않습니다. 또한, 이러한 쿼리 내에 지정된 값은 클라이언트에서 자동으로 편집될 수 없습니다.
데이터를 압축하고 메모리 사용량을 줄이려면 CSV 데이터를 삽입하세요. 내부 CsvBuilder gem을 사용하여 이를 수행할 수 있습니다:
iterator = Event.find_each
# insert from events table using only the id and the target_type columns
column_mapping = {
id: :id,
target_type: :target_type
}
CsvBuilder::Gzip.new(iterator, column_mapping).render do |tempfile|
query = 'INSERT INTO events (id, target_type) FORMAT CSV'
ClickHouse::Client.insert_csv(query, File.open(tempfile.path), :main)
end
PostgreSQL에서 데이터베이스 레코드의 효율적인 배치 처리를 테스트하고 검증하는 것이 중요합니다. 배치로 테이블 반복하기에 설명된 기법을 활용하는 것을 고려하세요.
테이블 반복#
ClickHouse에서 대용량 데이터를 배치 처리하려면 ClickHouse::Iterator 클래스를 사용할 수 있습니다. 이 이터레이터는 PostgreSQL 데이터베이스에 대한 기존 도구(배치로 테이블 반복하기 문서 참조)와 약간 다르게 작동하는데, 데이터베이스 인덱스에 의존하지 않고 고정 크기 숫자 범위를 사용합니다.
전제 조건:
-
단일 정수 칼럼.
-
칼럼 값 사이에 큰 공백이 없어야 하며, 이상적인 칼럼은 자동 증가하는 PostgreSQL 기본 키입니다.
-
데이터 중복이 최소한인 경우 중복된 값은 문제가 되지 않습니다.
사용법:
connection = ClickHouse::Connection.new(:main)
builder = ClickHouse::Client::QueryBuilder.new('events')
iterator = ClickHouse::Iterator.new(query_builder: builder, connection: connection)
iterator.each_batch(column: :id, of: 100_000) do |scope|
records = connection.select(scope.to_sql)
end
특정 행을 반복하려면 쿼리 빌더 객체에 필터를 추가할 수 있습니다. 효율적인 필터링 및 반복은 사용 사례에 최적화된 다른 데이터베이스 테이블 스키마가 필요할 수 있음을 유의하세요. 이러한 반복을 도입할 때는 항상 데이터베이스 쿼리가 전체 데이터베이스 테이블을 스캔하지 않는지 확인하세요.
connection = ClickHouse::Connection.new(:main)
builder = ClickHouse::Client::QueryBuilder.new('events')
# filtering by target type and stringified traversal ids/path
builder = builder.where(target_type: 'Issue')
builder = builder.where(path: '96/97/') # points to a specific project
iterator = ClickHouse::Iterator.new(query_builder: builder, connection: connection)
iterator.each_batch(column: :id, of: 10) do |scope, min, max|
puts "processing range: #{min} - #{max}"
puts scope.to_sql
records = connection.select(scope.to_sql)
end
최솟값-최댓값 전략#
첫 번째 단계로 이터레이터는 반복 데이터베이스 쿼리에서 조건으로 사용될 데이터 범위를 결정합니다. 데이터 범위는 MIN(column) 및 MAX(column) 집계를 사용하여 결정됩니다. 일부 데이터베이스 테이블에서 이 전략은 비효율적인 데이터베이스 쿼리(전체 테이블 스캔)를 유발합니다. 파티셔닝된 데이터베이스 테이블이 그 예입니다.
예시 쿼리:
SELECT MIN(id) AS min, MAX(id) AS max FROM events;
대안으로 데이터 범위 결정에 ORDER BY + LIMIT을 사용하는 다른 최솟값-최댓값 전략을 사용할 수 있습니다.
iterator = ClickHouse::Iterator.new(query_builder: builder, connection: connection, min_max_strategy: :order_limit)
예시 쿼리:
SELECT (SELECT id FROM events ORDER BY id ASC LIMIT 1) AS min, (SELECT id FROM events ORDER BY id DESC LIMIT 1) AS max;
Sidekiq 워커 구현#
ClickHouse 데이터베이스를 활용하는 Sidekiq 워커는 ClickHouseWorker 모듈을 포함해야 합니다.
이를 통해 데이터베이스 마이그레이션이 실행되는 동안 워커가 일시 중지되고,
워커가 활성 상태인 동안 마이그레이션이 실행되지 않도록 합니다.
# events_sync_worker.rb
# frozen_string_literal: true
module ClickHouse
class EventsSyncWorker
include ApplicationWorker
include ClickHouseWorker
...
end
end
ClickHouse 워커 태깅#
모든 ClickHouse 관련 Sidekiq 워커에는 고객이 더 나은 리소스 격리와 성능 최적화를 위해 이러한 워커를 별도의 Sidekiq 샤드로 이동할 수 있도록 clickhouse 태그가 지정됩니다.
ClickHouse와 상호 작용하는 모든 워커에 tags 메타데이터 필드를 추가해야 합니다:
# events_sync_worker.rb
# frozen_string_literal: true
module ClickHouse
class EventsSyncWorker
include ApplicationWorker
include ClickHouseWorker
idempotent!
queue_namespace :cronjob
data_consistency :delayed
feature_category :value_stream_management
tags :clickhouse
def perform
# Worker implementation
end
end
end
이 태깅을 통해 고객은 다음을 수행할 수 있습니다:
-
ClickHouse 워커를 전용 Sidekiq 프로세스 또는 서버로 라우팅
-
ClickHouse 워크로드에 다른 리소스 제한 및 스케일링 정책 적용
-
ClickHouse 관련 백그라운드 job을 별도로 모니터링 및 문제 해결
-
ClickHouse 작업에 대한 사용자 지정 재시도 정책 또는 오류 처리 구현
Sidekiq 워커 태깅 및 라우팅에 대한 자세한 내용은 Sidekiq 문서를 참조하세요.
GraphQL 사용#
GraphQL을 사용하여 ActiveRecord 쿼리와 동일한 외부 인터페이스(키셋 페이지네이션)로 ClickHouse 쿼리를 페이지네이션합니다.
페이지네이션 인터페이스에는 다음이 포함됩니다:
-
페이지네이션 관련 데이터(
endCursor및startCursor)를 위한PageInfo. -
다음 또는 이전 페이지를 로드하기 위한
after,before,first,last인수.
ClickHouse와 함께 GraphQL 페이지네이션을 사용하려면 쿼리가 다음 요구 사항을 충족해야 합니다:
-
ORDER BY칼럼은NOT NULL이어야 합니다. -
ORDER BY칼럼 값은 정확히 하나의 행을 식별해야 합니다(키셋 페이지네이션 요구 사항).
리졸버 구현 예시#
GraphQL 리졸버는 ClickHouse::Client::QueryBuilder 객체를 반환해야 합니다:
def resolve
ClickHouse::Client::QueryBuilder
.new('events')
.order(:created_at, :asc)
.order(:id, :asc)
end
페이지네이션 라이브러리는 커서 인코딩 및 디코딩을 처리합니다. 반환된 데이터는 직접 ClickHouse 쿼리에서 얻는 형식(해시 배열)과 일치합니다. GraphQL 응답을 위해 데이터를 형식화하려면 GraphQL 타입에 형식화 로직을 구현하세요.
중복 제거 쿼리를 사용한 리졸버 구현#
version 및 deleted 칼럼이 있는 ReplacingMergeTree 엔진을 쿼리할 때는 기본 키로 행을 중복 제거해야 합니다. 중복 제거 로직을 위해 GROUP BY와 argMax를 사용하는 중첩 SELECT를 사용하세요.
다음 예시는 hierarchy_work_items 구체화된 뷰 테이블에서 gitlab-org 그룹으로 필터링된 이슈를 나열합니다:
def resolve
builder = ClickHouse::Client::QueryBuilder.new('hierarchy_work_items')
columns = %i[id title traversal_path work_item_type_id created_at]
deleted_column = :deleted
version_column = :version
group_by_columns = %i[traversal_path work_item_type_id id]
# Use argMax to determine the latest column value based on the version column.
inner_projections = columns.map do |column|
if group_by_columns.include?(column)
builder.table[column]
else
Arel::Nodes::NamedFunction.new('argMax', [
builder.table[column],
builder.table[version_column]
]).as(column.to_s)
end
end
# Add the deleted column to filter deleted rows later.
inner_projections << Arel::Nodes::NamedFunction.new('argMax', [
builder.table[deleted_column],
builder.table[version_column]
]).as(deleted_column.to_s)
# Select all issues within the gitlab-org group (9970).
inner_query = builder
.select(*inner_projections)
.where(Arel::Nodes::NamedFunction.new('startsWith', [builder.table[:traversal_path], Arel.sql("'1/9970/'")]))
.where(work_item_type_id: 1)
.group(*group_by_columns)
builder
.select(*columns)
.from(inner_query, 'hierarchy_work_items')
.where(deleted: false)
.order(:created_at, :desc)
.order(:id, :desc)
end
이 코드는 다음 SQL 쿼리를 생성합니다:
SELECT
`hierarchy_work_items`.`id`,
`hierarchy_work_items`.`title`,
`hierarchy_work_items`.`traversal_path`,
`hierarchy_work_items`.`work_item_type_id`,
`hierarchy_work_items`.`created_at`
FROM
(
SELECT
`hierarchy_work_items`.`id`,
argMax(
`hierarchy_work_items`.`title`,
`hierarchy_work_items`.`version`
) AS title,
`hierarchy_work_items`.`traversal_path`,
`hierarchy_work_items`.`work_item_type_id`,
argMax(
`hierarchy_work_items`.`created_at`,
`hierarchy_work_items`.`version`
) AS created_at,
argMax(
`hierarchy_work_items`.`deleted`,
`hierarchy_work_items`.`version`
) AS deleted
FROM
`hierarchy_work_items`
WHERE
startsWith(
`hierarchy_work_items`.`traversal_path`,
'1/9970/'
)
AND `hierarchy_work_items`.`work_item_type_id` = 1
GROUP BY
traversal_path,
work_item_type_id,
id
) hierarchy_work_items
WHERE
`hierarchy_work_items`.`deleted` = 'false'
ORDER BY
`hierarchy_work_items`.`created_at` DESC,
`hierarchy_work_items`.`id` DESC
LIMIT
21
모범 사례#
ClickHouse의 데이터가 필요한 기능을 빌드할 때는 먼저 Sidekiq 워커 또는 다른 전략을 사용하여 PostgreSQL 테이블(예: 이벤트 또는 이슈)의 원시 데이터를 복제해야 합니다. 그런 다음 해당 데이터 위에 별도의 집계를 빌드하세요. PostgreSQL에서 직접 집계하는 것을 피함으로써 유지보수성을 향상시키고 데이터 재처리를 가능하게 할 수 있습니다.
테스트#
ClickHouse는 CI/CD에서 활성화되어 있지만 파이프라인 실행 시간에 큰 영향을 미치지 않기 위해 :click_house 태그가 지정된 테스트 케이스에만 ClickHouse 서버를 실행하기로 결정했습니다.
:click_house 태그는 모든 테스트 케이스 전에 데이터베이스 스키마가 올바르게 설정되도록 합니다.
RSpec.describe MyClickHouseFeature, :click_house do
it 'returns rows' do
rows = ClickHouse::Client.select('SELECT 1', :main)
expect(rows.size).to eq(1)
end
end
다중 데이터베이스#
설계상 ClickHouse::Client 라이브러리는 다중 데이터베이스 구성을 지원합니다. 아직 개발 초기 단계이기 때문에 main이라는 하나의 데이터베이스만 있습니다.
다중 데이터베이스 구성 예시:
development:
main:
database: gitlab_clickhouse_main_development
url: 'http://localhost:8123'
username: clickhouse
password: clickhouse
user_analytics: # made up database
database: gitlab_clickhouse_user_analytics_development
url: 'http://localhost:8123'
username: clickhouse
password: clickhouse
관찰 가능성#
ClickHouse::Client 라이브러리를 통해 실행된 모든 쿼리는 ActiveSupport::Notifications를 통해 성능 메트릭(타이밍, 읽은 바이트)과 함께 쿼리를 노출합니다.
ActiveSupport::Notifications.subscribe('sql.click_house') do |_, _, _, _, data|
puts data.inspect
end
또한 웹 인터랙션에서 실행된 ClickHouse 쿼리를 확인하려면 성능 표시줄에서 ch 라벨 옆의 카운트를 선택하세요.
테스트에서 Siphon 오류 처리#
GitLab은 Siphon이라는 도구를 사용하여 PostgreSQL의 지정된 테이블에서 ClickHouse로 데이터를 지속적으로 동기화합니다. 이 프로세스는 지정된 각 테이블에 대해 ClickHouse 스키마가 PostgreSQL 스키마의 사본을 포함해야 합니다.
GitLab 개발 중에 ClickHouse에 일치하는 칼럼을 추가하지 않고 PostgreSQL에 새 칼럼을 추가하면 다음 오류와 함께 실패합니다:
This table is synchronised to ClickHouse and you've added a new column!
이를 해결하려면 ClickHouse에도 칼럼을 추가하는 마이그레이션을 추가해야 합니다.
예시#
-
ClickHouse에 동기화되는 테이블(예:
milestones)에int4유형의 새 칼럼new_int를 추가합니다. -
CI가 다음 오류로 실패하는 것을 확인합니다:
This table is synchronised to ClickHouse and you've added a new column!
- 새 칼럼을 추가하는 새 ClickHouse 마이그레이션을 생성합니다. ClickHouse 테이블에는
siphon_접두사가 붙습니다:
bundle exec rails generate gitlab:click_house:migration add_new_int_to_siphon_milestones
- 생성된 파일에서 새 칼럼을 추가/제거하는 up/down 메서드를 정의합니다. ClickHouse 데이터 유형은 PostgreSQL에 근사하게 매핑됩니다.
새 칼럼에 적절한 매핑을 확인하려면
Gitlab::ClickHouse::SiphonGenerator::PG_TYPE_MAP을 확인하세요. 잘못된 유형을 사용하면 다른 오류가 발생합니다. 또한 적절한 경우LowCardinality를 활용하고, 가능한 경우 기본값을 선택하여Nullable을 드물게 사용하세요.
class AddNewIntToSiphonMilestones < ClickHouse::Migration
def up
execute <<~SQL
ALTER TABLE siphon_milestones ADD COLUMN new_int Int64 DEFAULT 42;
SQL
end
def down
execute <<~SQL
ALTER TABLE siphon_milestones DROP COLUMN new_int;
SQL
end
end
추가 지원이 필요한 경우 내부적으로 #f_siphon에 문의하세요.
문제 해결#
쿼리 실행 시 MEMORY_LIMIT_EXCEEDED 오류가 발생하면 gdk.yml 파일의 clickhouse.max_memory_usage 및 clickhouse.max_server_memory_usage 설정을 늘리세요.
기본 설정은 gdk.example.yml 파일을 참조하세요. 변경 사항을 적용하려면 GDK를 재구성해야 합니다.
도움 받기#
추가 정보나 특정 질문은 #f_clickhouse Slack 채널의 ClickHouse Datastore 워킹 그룹에 문의하거나, GitLab.com의 댓글에서 @gitlab-org/maintainers/clickhouse를 언급하세요.