データ耐性
Zilliz Cloud は完全マネージドベクトルデータベースサービスとして、さまざまな障害シナリオ下でもミッションクリティカルなデータとサービスの継続的な可用性を確保するために、エンタープライズグレードの高可用性 (HA) およびディザスタリカバリー (DR) 機能を提供します。
主要機能
-
高可用性 (HA): 自動障害検出および迅速なフェイルオーバーメカニズムにより、ノード、可用性ゾーン (AZ)、またはリージョンレベルの停止中でもサービスの中断を防ぎます。
-
ディザスタリカバリー (DR): 包括的なバックアップおよびリストア戦略により、大規模インシデント後の迅速なビジネス回復を可能にします。
-
柔軟な耐性レベル: 標準からエンタープライズグレードのクロスリージョン展開まで、ビジネスシナリオに応じた多様な RPO/RTO 要件に対応。
-
コスト最適化: ビジネス価値およびリスク許容度に基づいて、最もコスト効果の高い耐性戦略を選択できます。
主要概念
主要指標
-
リカバリポイント目標 (RPO): 時間で測定される最大許容データ損失。例えば、RPO が5分の場合、障害発生時に最大5分間の最新データが失われる可能性があります。
-
リカバリタイム目標 (RTO): 障害発生から完全サービス復旧までの最大許容時間で、障害検出、フェイルオーバー判断、および実際の復旧時間を含みます。
-
サービスレベルアグリーメント (稼働時間SLA): Zilliz Cloud のサービス可用性に関するコミットメントで、通常はパーセンテージで表されます(例:99.95%の稼働時間は、月に最大21.6分のダウンタイムを意味します)。
故障耐性範囲
-
ノードレベルの故障耐性: 単一のコンピュートまたはストレージノードの故障
-
AZ レベルの故障耐性: 完全な AZ 停止(例:データセンターの故障)
-
リージョンレベルの故障耐性: 完全なリージョンサービス中断(例:自然災害)
-
クラウドプロバイダーレベルの故障耐性: 複数クラウド展開により、単一クラウドベンダーからのリスクを軽減
耐性アーキテクチャレベル
高可用性 (HA) レベル
レベル | 説明 | RPO | RTO | 書き込み遅延 / 複製方式 | 故障耐性 | SLA | 相対コスト |
|---|---|---|---|---|---|---|---|
標準 | 単一リージョン、単一AZ展開によるマルチレプリカメカニズム | 0秒 | ≤1分 | 単一AZ内での書き込み; WALはクォーラムで複製 | ノードレベルの障害 AZs: 1 リージョン: 1 | SLA保証なし | 低 |
エンタープライズ | 3つのAZにまたがる単一リージョン展開で自動フェイルオーバー | 0秒 | ≤1分 | クロスAZ書き込み; WALはクォーラムで複製 | AZレベルの障害 AZs: 3 リージョン: 1 | 99.95% | 中 |
エンタープライズマルチレプリカ | リージョン内でのアクティブ-アクティブマルチレプリカアーキテクチャ; 読み書き分離および高速フェイルオーバー | 0秒 | ≤10秒 | クロスAZ書き込み; レプリカ間同期はWAL経由 | AZレベルの障害 AZs: 3 リージョン: 1 | 99.99% | 中〜高 |
クロスリージョンHA | グローバルロードバランシングによるマルチリージョン/マルチクラウド展開 | ≤10秒 | 手動または自動フェイルオーバー: 自動: ≤3分 | AZ間での同期書き込み; 他のリージョン/クラウドへの非同期レプリケーション | リージョンレベルの障害 AZs: ≥3 リージョン: ≥2 | 99.99% | 高 |
クロスリージョンHAは2025年11月に利用可能になります。増分バックアップは2025年12月に利用可能になります。
ディザスタリカバリー (DR) レベル
レベル | 説明 | RPO | 復元速度 | バックアップ戦略 | 使用例 | 追加コスト |
|---|---|---|---|---|---|---|
ローカルバックアップ | 同一リージョンオブジェクトストレージ; スケジュールされた完全バックアップ | 毎時 | 数分〜数時間 | 完全バックアップ | 誤削除、論理的エラー回復 | 低 |
クロスリージョンバックアップ | 異なるリージョンに保存されたバックアップデータ; リージョン災害から保護 | 毎時 | 数分〜数時間 | リージョン/クラウド間で複製された完全バックアップ | リージョン災害、コンプライアンス要件 | 中 |
増分バックアップ | リアルタイム増分バックアップ; 細かいリカバリポイント | ≤1分 | 数分〜数時間 | トランザクションログの継続的キャプチャ | 重要ワークロードのポイントインタイムリカバリ | 中〜高 |
クイック選択ガイド
ビジネス階層化 & 耐性推奨
Tier 1 – ミッションクリティカルワークロード
-
特徴: 24時間365日運用; 数分の停止でも重大な損失が発生; 極めて高いビジネス価値
-
推奨: クロスリージョンHA + エンタープライズマルチレプリカ + 連続データ保護
-
目標: RPO = 0s、RTO < 30s、クロスクラウド/リージョンDR
-
期待されるコスト: 高
Tier 2 – 重要なビジネスシステム
-
特徴: 24時間365日運用; 高い安定性要求
-
推奨: エンタープライズマルチレプリカ + クロスリージョンバックアップ
-
目標: RPO = 0s、RTO < 30s
-
期待されるコスト: 中〜高
Tier 3 – 一般アプリケーション
-
特徴: 業務時間内運用; コストに敏感; ある程度のリカバリ時間を容認
-
推奨: エンタープライズ + ローカルバックアップ
-
目標: RPO = 0s、RTO < 3分
-
期待されるコスト: 低〜中
Tier 4 – 非クリティカルワークロード
-
特徴: 非必須システム; コストに敏感; スケジュールされたメンテナンス時間を受け入れる
-
推奨: 標準 + ローカルバックアップ
-
目標: RPO = 0s、RTO < 3分
-
期待されるコスト: 低〜中
コスト最適化判断マトリクス
ビジネスへの影響 | データ価値 | コンプライアンス要件 | 推奨ソリューション | コストレベル |
|---|---|---|---|---|
極めて高い | 極めて高い | 厳格 | クロスリージョンHA + 完全DR | 高 |
高い | 高い | 中程度 | エンタープライズマルチレプリカ + クロスリージョンバックアップ | 中〜高 |
中 | 中 | 基本 | エンタープライズ + ローカルバックアップ | 中 |
低 | 低 | なし | 標準 + 基本バックアップ | 低 |
よくある質問 (FAQ)
Q1: 標準およびエンタープライズプランはどのように高可用性を実現していますか?
アーキテクチャ設計
Zilliz Cloud はコンピュートとストレージを分離したアーキテクチャを使用し、3つのデータタイプがあります:
-
メタデータ: etcd に保存(3つのレプリカ、RAFT プロトコル)
-
ログデータ: 独自の Woodpecker に保存(クォーラムプロトコル)
-
生データおよびインデックスデータ: オブジェクトストレージに保存、クラウドストレージのネイティブHA継承
コンピュートノードHA
-
Kubernetes によって管理され、自動スケジューリング
-
単一ノードまたは単一AZ故障時にポッドが自動再起動
-
コーディネーターがセグメントを他の QueryNode に再割り当て
-
インデックスとデータはストレージから再読み込み; 回復時間 < 1分
コスト最適化
-
複数の永続レプリカ + 動的インメモリロード を使用
-
インメモリレプリカを複数維持することによるコスト爆発を回避
-
DRアーキテクチャを簡素化
-
ログおよびオブジェクトストレージの帯域幅を活用して高速回復
-
Q2: マルチレプリカメカニズムはどのように動作しますか?
コアメカニズム
-
シャードレベル: 複数の StreamNode が同じシャードをプライマリ/スタンバイ役割でロード
-
セグメントレベル: 複数の QueryNode が同じセグメントをロード; データは単一コピーとして永続化
読み書き分離
-
書き込み: プライマリ StreamNode が処理
-
読み取り: 任意のスタンバイ StreamNode または QueryNode が提供
主な利点
-
高速フェイルオーバー: プロキシが自動的にトラフィックをスタンバイノードにリダイレクト
-
より高いQPS: 複数のインメモリレプリカが読み取りスループットを向上
-
スムーズなアップグレード: ローリングアップデートによりサービスの不安定さを軽減し、安定性を向上
Q3: グローバルデータベースはクロスリージョン高可用性をどのように実現しますか?
CDC 同期
-
Change Data Capture (CDC) は DDL、DML、およびバルクインポート操作を同期
-
典型的な同期遅延 < 10秒
-
非常に低い RPO でクロスリージョン/クロスクラウドDRを可能に
データ書き込み戦略
-
同一リージョン内の複数AZに同期的にデータ書き込み
-
書き込み遅延はAZ間レベル
-
極端なフェイルオーバーシナリオにおいても、データ損失 < 10秒
2026年ロードマップ: クロスリージョンWoodpeckerでRPO = 0を実現
フェイルオーバーモード
-
手動: OpenAPI または Web コンソール経由
-
自動: Zilliz ヘルスチェックサービスが故障を検出し、1〜3分でフェイルオーバーを完了
アクセスパターン
モード | 特徴 | 使用例 |
|---|---|---|
アクティブ-スタンバイDR | プライマリが読み書きを処理; スタンバイはフェイルオーバー時のみアクティブ化 | 標準ディザスタリカバリー |
アクティブ-アクティブ(マルチリード) | プライマリ書き込み; 複数リージョンでの読み取り(最寄りリージョン読み取り) | グローバル読み取り重視、書き込み軽減ワークロード |
マルチプライマリ (2026年登場予定) | 両リージョンが書き込みを許可; ユーザーがデータ競合を回避する必要あり | セルベースまたはシャーデッド展開 |
最新の機能アップデートまたは技術サポートについては、Zilliz Cloud サポートにお問い合わせください。