メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

データの回復力

Zilliz Cloud は、フルマネージドのベクトルデータベースサービスとして、エンタープライズグレードの 高可用性(HA) および ディザスタリカバリ(DR) 機能を提供し、さまざまな障害シナリオ下でもミッションクリティカルなデータとサービスの継続的な可用性を確保します。

コア機能

  • 高可用性(HA): 自動障害検出と高速フェイルオーバーメカニズムにより、ノード、可用性ゾーン(AZ)、またはリージョンレベルの停止中もサービス運用を中断しません。

  • ディザスタリカバリ(DR): 包括的なバックアップと復元戦略により、重大なインシデント後の迅速な事業回復を可能にします。

  • 柔軟な回復力ティア: Standard からエンタープライズグレードのクロスリージョン展開まで、さまざまなビジネスシナリオにわたる多様な RPO/RTO 要件に応じた柔軟な選択肢。

  • コスト最適化: ビジネス価値とリスク許容度に基づいて、最もコスト効果の高い回復力戦略を選択できます。

主要な概念

コアメトリクス

  • Recovery Point Objective(RPO): 許容可能な最大データ損失量を時間で測定します。例えば、RPO が 5 分の場合、障害発生時に最大 5 分間の最新データが失われる可能性があります。

  • Recovery Time Objective(RTO): 障害発生から完全なサービス復旧までの許容可能な最大時間で、障害検出、フェイルオーバー判断、および実際の復旧を含みます。

  • Service Level Agreement(Uptime SLA): Zilliz Cloud のサービス可用性に対するコミットメントで、通常はパーセンテージで表されます(例:99.95% の稼働率は、月あたりのダウンタイムが 21.6 分以内であることを意味します)。

フォルトトレランスの範囲

  • ノードレベルのフォルトトレランス: 単一の計算ノードまたはストレージノードの障害

  • AZ レベルのフォルトトレランス: 完全な AZ 停止(例:データセンターの障害)

  • リージョンレベルのフォルトトレランス: リージョン全体のサービス中断(例:自然災害)

  • クラウドプロバイダーレベルのフォルトトレランス: 単一クラウドベンダーのリスクを軽減するマルチクラウド展開

回復力アーキテクチャティア

高可用性(HA)ティア

ティア

説明

RPO

RTO

書き込みレイテンシ / レプリケーション方式

フォルトトレランス

SLA

相対コスト

Standard

シングルリージョン、シングル AZ 展開、マルチレプリカメカニズム

0 秒

≤1 分

シングル AZ 内書き込み;WAL は Quorum 経由でレプリケート

ノードレベルの障害

AZ: 1

リージョン: 1

SLA 保証なし

Enterprise

3 AZ にまたがるシングルリージョン展開、自動フェイルオーバー

0 秒

≤1 分

クロス AZ 書き込み;WAL は Quorum 経由でレプリケート

AZ レベルの障害

AZ: 3

リージョン: 1

99.95%

Enterprise Multi-Replica

リージョン内アクティブ・アクティブマルチレプリカアーキテクチャ;読み書き分離、高速フェイルオーバー

0 秒

≤10 秒

クロス AZ 書き込み;レプリカ間同期は WAL 経由

AZ レベルの障害

AZ: 3

リージョン: 1

99.99%

中~高

Cross-Region HA

マルチリージョン/マルチクラウド展開、グローバルロードバランシング

≤10 秒

手動または自動フェイルオーバー:

自動: ≤3 分

AZ 間同期書き込み;他のリージョン/クラウドへの非同期レプリケーション

リージョンレベルの障害

AZ: ≥3

リージョン: ≥2

99.99%

📘Notes

クロスリージョン HA は 2025 年 11 月に利用可能になります。

ディザスタリカバリ(DR)ティア

ティア

説明

RPO

復元速度

バックアップ戦略

ユースケース

追加コスト

Local Backup

同一リージョンのオブジェクトストレージ;スケジュールされたフルバックアップ

毎時

数分~数時間

フルバックアップ

誤削除、論理エラーの回復

Cross-Region Backup

バックアップデータを別リージョンに保存;リージョナルディザスタから保護

毎時

数分~数時間

リージョン/クラウド間でレプリケートされたフルバックアップ

リージョナルディザスタ、コンプライアンス要件

クイック選択ガイド

ビジネスティアリングと回復力の推奨

ティア 1 – ミッションクリティカルワークロード

  • 特徴: 24 時間 365 日運用;数分のダウンタイムでも重大な損失が発生;極めて高いビジネス価値

  • 推奨: クロスリージョン HA + Enterprise Multi-Replica + 継続的データ保護

  • 目標: RPO = 0 秒、RTO < 30 秒、クロスクラウド/リージョン DR

  • 想定コスト:

ティア 2 – 重要なビジネスシステム

  • 特徴: 24 時間 365 日運用;高い安定性要件

  • 推奨: Enterprise Multi-Replica + クロスリージョンバックアップ

  • 目標: RPO = 0 秒、RTO < 30 秒

  • 想定コスト: 中~高

ティア 3 – 一般アプリケーション

  • 特徴: 営業時間内運用;コスト重視;ある程度の復旧時間を許容

  • 推奨: Enterprise + Local Backup

  • 目標: RPO = 0 秒、RTO < 3 分

  • 想定コスト: 低~中

ティア 4 – 非クリティカルワークロード

  • 特徴: 必須システムではない;コスト重視;スケジュールされたメンテナンスウィンドウを受け入れる

  • 推奨: Standard + Local Backup

  • 目標: RPO = 0 秒、RTO < 3 分

  • 想定コスト: 低~中

コスト最適化意思決定マトリクス

ビジネス影響

データ価値

コンプライアンス要件

推奨ソリューション

コストレベル

極めて高い

極めて高い

厳格

クロスリージョン HA + フル DR

高い

高い

中程度

Enterprise Multi-Replica + クロスリージョンバックアップ

中~高

基本

Enterprise + Local Backup

低い

低い

なし

Standard + 基本バックアップ

よくある質問(FAQ)

Q1: Standard および Enterprise プランはどのように高可用性を実現していますか?

アーキテクチャ設計

Zilliz Cloud は、計算とストレージを分離したアーキテクチャを採用し、3 種類のデータタイプを使用します:

  • メタデータ: etcd に保存(3 レプリカ、RAFT プロトコル)

  • ログデータ: 独自の Woodpecker に保存(Quorum プロトコル)

  • 生データおよびインデックスデータ: オブジェクトストレージに保存し、クラウドストレージのネイティブ HA を継承

計算ノードの HA

  • Kubernetes による自動スケジューリングで管理

  • 単一ノードまたは単一 AZ の障害時に Pod が自動的に再生成される

  • コーディネーターがセグメントを他の QueryNode に再割り当て

  • インデックスとデータはストレージから再読み込み;復旧時間 < 1 分

コスト最適化

  • 複数の永続レプリカ + 動的なインメモリ読み込み を使用

    • 複数のインメモリレプリカの維持によるコスト爆発を回避

    • DR アーキテクチャを簡素化

    • ログおよびオブジェクトストレージの帯域を活用してより高速な復旧を実現

Q2: マルチレプリカメカニズムはどのように動作しますか?

コアメカニズム

  • シャードレベル: 複数の StreamNode が同じシャードをプライマリ/スタンバイの役割で読み込む

  • セグメントレベル: 複数の QueryNode が同じセグメントを読み込む;データは単一コピーとして永続化

読み書き分離

  • 書き込み: プライマリ StreamNode が処理

  • 読み込み: 任意のスタンバイ StreamNode または QueryNode が提供

主な利点

  • 高速フェイルオーバー: プロキシが自動的にトラフィックをスタンバイノードにリダイレクト

  • より高い QPS: 複数のインメモリレプリカが読み取りスループットを向上

  • スムーズなアップグレード: ローリングアップデートによりサービスのジッターを低減し、安定性を向上

Q3: Global データベース はどのようにクロスリージョン高可用性を実現しますか?

CDC 同期

  • Change データ Capture(CDC)が DDL、DML、および一括インポート操作を同期

  • 典型的な同期レイテンシ < 10 秒

  • 非常に低い RPO でクロスリージョン/クロスクラウド DR を実現

データ書き込み戦略

  • 同一リージョン内の複数 AZ にわたる同期書き込み

  • 書き込みレイテンシは AZ 間レベル

  • 極端なフェイルオーバーシナリオでも、データ損失 < 10 秒

📘Notes

2026 年のロードマップ: クロスリージョン Woodpecker で RPO = 0 を達成

フェイルオーバーモード

  • 手動: OpenAPI または Web Console 経由

  • 自動: Zilliz のヘルスチェックサービスが障害を検出し、1~3 分でフェイルオーバーを完了

アクセスパターン

モード

特徴

ユースケース

Active-Standby DR

プライマリが読み書きを処理;スタンバイはフェイルオーバー時のみ有効化

標準的なディザスタリカバリ

Active-Active(マルチリード)

プライマリが書き込み;複数リージョンが読み込みを提供(最寄りリージョン読み取り)

グローバルな読み取り重視、低書き込みワークロード

Multi-Primary (2026 年に登場予定)

両方のリージョンが書き込みを受け付ける;ユーザーはデータ競合を回避する必要がある

セルベースまたはシャード展開

最新の機能アップデートまたは技術サポートについては、Zilliz Cloud サポート までお問い合わせください。