アクセスログの概要Public Preview
高ボリュームのワークロードにおいて、どのデータが最も頻繁にアクセスされているかを把握することは、インデックスのチューニングやパーティション戦略などの最適化判断にとって重要です。クエリパターンの可視性がなければ、これらの判断は推測に依存することになります。
アクセスログはその可視性を提供します。Zilliz Cloud クラスターで有効にすると、アクセスログパイプラインがクエリアクティビティをキャプチャし、構造化されたログファイルとして独自のオブジェクトストレージに配信します。その後、これらのログをデータウェアハウスにロードし、エンティティIDで集計して、ホットデータ、遅いクエリ、使用傾向を特定できます。
このリリースでは、search または query クラスのアクションのみをログに記録します:Search、HybridSearch、Query。完全なアクションリストのサポートは将来のリリースで予定されています。
このリリースでは、監査ログとアクセスログは相互に排他的です — 一度に有効にできるのはどちらか一方のみです。
アクセスログは、Enterprise プロジェクトの Dedicated クラスターでのみ利用可能です。クラスターが異なるプランまたはクラスタータイプの場合は、アップグレードを検討してください。
パイプラインの仕組み
アクセスログパイプラインには、Zilliz Cloud 側での収集と、お客様側での分析という2つのフェーズがあります。

Zilliz Cloud がログを収集・配信する
クラスターでアクセスログを有効にすると、Zilliz Cloud はプロキシレイヤーでクエリアクティビティのキャプチャを開始します。クラスターレベルで2つの設定を構成します:
-
サンプルレート:ログに記録されるリクエストの割合を制御します。値は0から100の範囲で、ランダムにサンプリングされてアクセスログに書き込まれるリクエストの割合を表します。例えば、サンプルレートを1に設定すると、約1%のリクエストがアクセスログエントリを生成します。高ボリュームのワークロードでは、低いサンプルレートでログストレージコストを削減しながら、アクセスパターンを分析するのに十分なデータを提供できます。
-
出力フィールド:各アクセスログエントリに含まれる追加のレスポンスフィールドを制御します。一般的なオプションは以下の通りです:
-
params.result_pks:クエリ結果で返されたプライマリキーIDのリストを記録します。これにより、後でエンティティごとに集計して、ホットデータとアクセス頻度を特定できます。 -
params.result_scores:params.result_pks内の各IDの類似度スコアを記録し、どの結果が高信頼度のマッチで、どの結果が境界線上のマッチだったかを把握するのに役立ちます。
-
ログは JSON Lines 形式(1行に1つのJSONオブジェクト)で書き込まれ、セットアップ時に構成したオブジェクトストレージバケットに自動的に配信されます。各ファイルは予測可能なパス規則に従います:
/<Cluster ID>/<Log type>/<Date>/<HH:MM:SS>-<UUID>.log
例: /in03-c7be749d5f403ad/access/2024-12-20/09:16:53-jz5l7D8Q.log
パラメータの詳細については、アクセスログリファレンス を参照してください。
ログの分析
ログは標準的な JSON Lines ファイルとして独自のバケットに到達するため、JSON を読み取るツールであればどれでも処理できます。各ログエントリには、action、cluster_id、timestamp、params.result_pks(クエリ結果のプライマリキーのリスト)などの構造化フィールドが含まれています。
一般的な分析アプローチは以下の通りです:
-
JSON Lines ファイルをデータウェアハウスまたは分析ツールに読み込みます。
-
各エントリから
actionフィールドとparams.result_pksフィールドを解析します。 -
時間枠をまたいでプライマリキーごとに集計し、アクセス頻度を把握します。
その結果、どのエンティティが最も頻繁にクエリされ、どのアクションを通じて、いつクエリされたかというデータのヒートマップが得られます。
信頼性と課金
アクセスログパイプラインは、核心的な原則に基づいて設計されています: ログ記録がクエリパフォーマンスを低下させることはありません。
ノンブロッキング保証
アクセスログの収集は、ユーザーリクエストを遅延させたりブロックしたりすることはありません。システムがクエリの完了とログエントリの書き込みのどちらかを選択しなければならない場合、クエリが常に優先されます。
猶予的な低下
極端な負荷下では、システムがクエリスループットを維持するためにアクセスログエントリを破棄することがあります。これは、アクセスログがクエリアクティビティの保証された完全な記録ではなく、ベストエフォートの記録を提供することを意味します。
次のステップ
-
アクセスログの設定: アクセスログの有効化、サンプリングレートと出力パラメータの調整、またはログ記録の無効化。
-
アクセスログリファレンス: 完全なフィールドスキーマ、完全なアクションリスト、およびファイルパス規約。