Cloud Bigtable のパフォーマンスチューニング技法

スキーマ設計の最適化

ロウキーの設計原則

Cloud Bigtable のロウキー設計には以下の重要な原則があります：

分散パターン

タイムスタンプは逆順に格納してホットスポットを防ぐ
プレフィックスにソルト値を追加して負荷を分散
ユーザーIDなどの偏りやすい値は後続に配置

キー構造

関連データのクエリ効率を考慮した階層構造
必要最小限の情報のみを含める
区切り文字には「~」などスキャン処理に影響しない文字を使用

アンチパターン

連続的な値（タイムスタンプ、シーケンシャルID）をプレフィックスにしない
単一の値に過度にアクセスが集中する設計を避ける
過度に長いキーやランダム性の強いキーを使用しない

このような原則に従うことで、読み書きの負荷を均等に分散し、パフォーマンスを最適化できます。

// 良い例：タイムスタンプを逆順にして均等な分散を実現
String rowKey = String.format("%d~%s~%s", 
    Long.MAX_VALUE - timestamp,
    userId,
    deviceId);

// 悪い例：タイムスタンプをそのまま使用すると特定ノードに負荷が集中
String badRowKey = String.format("%d~%s~%s", 
    timestamp,
    userId,
    deviceId);

クラスタ設定の最適化

ノード数の計算

Cloud Bigtableのノード数を計算する際の2つの重要な要素：

ストレージ容量に基づく計算

1ノードあたり約2TBまでのストレージをサポート
必要なストレージ容量を2048GBで割って最小ノード数を算出

パフォーマンス要件に基づく計算

1ノードあたり約1万QPSの処理が可能
必要なQPSを10000で割って必要なノード数を算出

最終的なノード数は、これらの計算結果の大きい方を採用します。これにより、ストレージとパフォーマンスの両方の要件を満たす最適なクラスタサイズを決定できます。

例：

5TB のストレージが必要な場合：3ノード (5TB ÷ 2TB = 2.5 → 3)
25000 QPSが必要な場合：3ノード (25000 ÷ 10000 = 2.5 → 3)

def calculate_nodes(storage_gb, qps):
    storage_nodes = math.ceil(storage_gb / 2048)  # 1ノードあたり2TB
    performance_nodes = math.ceil(qps / 10000)    # 1ノードあたり1万QPS
    return max(storage_nodes, performance_nodes)

読み取りパフォーマンスの最適化

バルク読み取りの実装

Cloud Bigtableでのバルク読み取りは、複数のロウキーを一度のリクエストで取得する効率的な方法です。

コードの説明：

// 複数のキーをリストで指定
List<String> rowKeys = Arrays.asList("key1", "key2", "key3");

// 一括取得リクエストを作成
BatchGetRowsRequest request = BatchGetRowsRequest.of(tableId)
    .rowKeys(rowKeys);

主なメリット：

ネットワークラウンドトリップの削減
スループットの向上
レイテンシの削減

使用上の注意点：

一度に取得するキー数は適切なサイズに制限する
キーの順序は結果に影響しない
存在しないキーは結果から除外される

書き込みパフォーマンスの最適化

バルクローディング

Cloud Bigtableでのバルクローディングは大量データを効率的に書き込むための手法です。

コードの説明：

def bulk_load_data(table, data):
    with table.batch() as batch:
        for row in data:
            batch.put(
                row.key,
                {
                    'cf1:col1': row.value1,
                    'cf1:col2': row.value2
                }
            )

特徴：

バッチ処理によるリクエスト数の削減
トランザクション的な一括処理
メモリ効率の良い実装

注意点：

バッチサイズの適切な設定
エラーハンドリングの実装
メモリ使用量の監視

バッチ処理を使用することで、個別の書き込みと比較して大幅なパフォーマンス向上が期待できます。

キャッシング戦略

クライアントサイドキャッシング

BigtableDataSettings settings = BigtableDataSettings.newBuilder()
    .setInstanceId(instanceId)
    .setProjectId(projectId)
    .build();

BigtableDataClient client = BigtableDataClient.create(settings);

主なポイント：

クライアントライブラリが自動的にキャッシュを管理
頻繁にアクセスされるデータをメモリに保持
読み取りレイテンシの削減
ネットワークトラフィックの最適化

設定のベストプラクティス：

キャッシュサイズの適切な設定
TTLの設定によるデータ鮮度の管理
メモリ使用量のモニタリング

モニタリングとメトリクス

重要なメトリクス

CPU使用率
ディスク使用率
レイテンシ分布
QPS

アンチパターンの回避

避けるべき設計パターン

// 悪い例：単一のホットスポット
String badRowKey = "constant_prefix_" + id;

// 良い例：プレフィックスのソルティング
String goodRowKey = salt.getNext() + "~" + id;

書籍紹介

詳しく学びたい方におすすめ：

『Google Cloud Platform 実践ビッグデータ分析基盤開発ストーリーで学ぶGoogle BigQuery』 https://amzn.to/3XNIcw9

パフォーマンステスト

負荷テストの実行

def run_load_test(table, duration_seconds, qps):
    start_time = time.time()
    while time.time() - start_time < duration_seconds:
        # ランダムなデータ生成
        key = generate_random_key()
        value = generate_random_value()
        
        # 書き込み実行
        table.put(key, value)
        
        # QPSの調整
        time.sleep(1/qps)

設定最適化のチェックリスト

ロウキー設計の検証
クラスタサイジングの確認
GCポリシーの設定
インスタンスタイプの選択
ネットワーク設定の最適化