メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

データ耐性

Zilliz Cloud は完全マネージドベクトルデータベースサービスとして、さまざまな障害シナリオ下でもミッションクリティカルなデータとサービスの継続的な可用性を確保するために、エンタープライズグレードの高可用性 (HA) およびディザスタリカバリー (DR) 機能を提供します。

主要機能

  • 高可用性 (HA): 自動障害検出および迅速なフェイルオーバーメカニズムにより、ノード、可用性ゾーン (AZ)、またはリージョンレベルの停止中でもサービスの中断を防ぎます。

  • ディザスタリカバリー (DR): 包括的なバックアップおよびリストア戦略により、大規模インシデント後の迅速なビジネス回復を可能にします。

  • 柔軟な耐性レベル: 標準からエンタープライズグレードのクロスリージョン展開まで、ビジネスシナリオに応じた多様な RPO/RTO 要件に対応。

  • コスト最適化: ビジネス価値およびリスク許容度に基づいて、最もコスト効果の高い耐性戦略を選択できます。

主要概念

主要指標

  • リカバリポイント目標 (RPO): 時間で測定される最大許容データ損失。例えば、RPO が5分の場合、障害発生時に最大5分間の最新データが失われる可能性があります。

  • リカバリタイム目標 (RTO): 障害発生から完全サービス復旧までの最大許容時間で、障害検出、フェイルオーバー判断、および実際の復旧時間を含みます。

  • サービスレベルアグリーメント (稼働時間SLA): Zilliz Cloud のサービス可用性に関するコミットメントで、通常はパーセンテージで表されます(例:99.95%の稼働時間は、月に最大21.6分のダウンタイムを意味します)。

故障耐性範囲

  • ノードレベルの故障耐性: 単一のコンピュートまたはストレージノードの故障

  • AZ レベルの故障耐性: 完全な AZ 停止(例:データセンターの故障)

  • リージョンレベルの故障耐性: 完全なリージョンサービス中断(例:自然災害)

  • クラウドプロバイダーレベルの故障耐性: 複数クラウド展開により、単一クラウドベンダーからのリスクを軽減

耐性アーキテクチャレベル

高可用性 (HA) レベル

レベル

説明

RPO

RTO

書き込み遅延 / 複製方式

故障耐性

SLA

相対コスト

標準

単一リージョン、単一AZ展開によるマルチレプリカメカニズム

0秒

≤1分

単一AZ内での書き込み; WALはクォーラムで複製

ノードレベルの障害

AZs: 1

リージョン: 1

SLA保証なし

エンタープライズ

3つのAZにまたがる単一リージョン展開で自動フェイルオーバー

0秒

≤1分

クロスAZ書き込み; WALはクォーラムで複製

AZレベルの障害

AZs: 3

リージョン: 1

99.95%

エンタープライズマルチレプリカ

リージョン内でのアクティブ-アクティブマルチレプリカアーキテクチャ; 読み書き分離および高速フェイルオーバー

0秒

≤10秒

クロスAZ書き込み; レプリカ間同期はWAL経由

AZレベルの障害

AZs: 3

リージョン: 1

99.99%

中〜高

クロスリージョンHA

グローバルロードバランシングによるマルチリージョン/マルチクラウド展開

≤10秒

手動または自動フェイルオーバー:

自動: ≤3分

AZ間での同期書き込み; 他のリージョン/クラウドへの非同期レプリケーション

リージョンレベルの障害

AZs: ≥3

リージョン: ≥2

99.99%

📘Notes

クロスリージョンHAは2025年11月に利用可能になります。増分バックアップは2025年12月に利用可能になります。

ディザスタリカバリー (DR) レベル

レベル

説明

RPO

復元速度

バックアップ戦略

使用例

追加コスト

ローカルバックアップ

同一リージョンオブジェクトストレージ; スケジュールされた完全バックアップ

毎時

数分〜数時間

完全バックアップ

誤削除、論理的エラー回復

クロスリージョンバックアップ

異なるリージョンに保存されたバックアップデータ; リージョン災害から保護

毎時

数分〜数時間

リージョン/クラウド間で複製された完全バックアップ

リージョン災害、コンプライアンス要件

増分バックアップ

リアルタイム増分バックアップ; 細かいリカバリポイント

≤1分

数分〜数時間

トランザクションログの継続的キャプチャ

重要ワークロードのポイントインタイムリカバリ

中〜高

クイック選択ガイド

ビジネス階層化 & 耐性推奨

Tier 1 – ミッションクリティカルワークロード

  • 特徴: 24時間365日運用; 数分の停止でも重大な損失が発生; 極めて高いビジネス価値

  • 推奨: クロスリージョンHA + エンタープライズマルチレプリカ + 連続データ保護

  • 目標: RPO = 0s、RTO < 30s、クロスクラウド/リージョンDR

  • 期待されるコスト:

Tier 2 – 重要なビジネスシステム

  • 特徴: 24時間365日運用; 高い安定性要求

  • 推奨: エンタープライズマルチレプリカ + クロスリージョンバックアップ

  • 目標: RPO = 0s、RTO < 30s

  • 期待されるコスト: 中〜高

Tier 3 – 一般アプリケーション

  • 特徴: 業務時間内運用; コストに敏感; ある程度のリカバリ時間を容認

  • 推奨: エンタープライズ + ローカルバックアップ

  • 目標: RPO = 0s、RTO < 3分

  • 期待されるコスト: 低〜中

Tier 4 – 非クリティカルワークロード

  • 特徴: 非必須システム; コストに敏感; スケジュールされたメンテナンス時間を受け入れる

  • 推奨: 標準 + ローカルバックアップ

  • 目標: RPO = 0s、RTO < 3分

  • 期待されるコスト: 低〜中

コスト最適化判断マトリクス

ビジネスへの影響

データ価値

コンプライアンス要件

推奨ソリューション

コストレベル

極めて高い

極めて高い

厳格

クロスリージョンHA + 完全DR

高い

高い

中程度

エンタープライズマルチレプリカ + クロスリージョンバックアップ

中〜高

基本

エンタープライズ + ローカルバックアップ

なし

標準 + 基本バックアップ

よくある質問 (FAQ)

Q1: 標準およびエンタープライズプランはどのように高可用性を実現していますか?

アーキテクチャ設計

Zilliz Cloud はコンピュートとストレージを分離したアーキテクチャを使用し、3つのデータタイプがあります:

  • メタデータ: etcd に保存(3つのレプリカ、RAFT プロトコル)

  • ログデータ: 独自の Woodpecker に保存(クォーラムプロトコル)

  • 生データおよびインデックスデータ: オブジェクトストレージに保存、クラウドストレージのネイティブHA継承

コンピュートノードHA

  • Kubernetes によって管理され、自動スケジューリング

  • 単一ノードまたは単一AZ故障時にポッドが自動再起動

  • コーディネーターがセグメントを他の QueryNode に再割り当て

  • インデックスとデータはストレージから再読み込み; 回復時間 < 1分

コスト最適化

  • 複数の永続レプリカ + 動的インメモリロード を使用

    • インメモリレプリカを複数維持することによるコスト爆発を回避

    • DRアーキテクチャを簡素化

    • ログおよびオブジェクトストレージの帯域幅を活用して高速回復

Q2: マルチレプリカメカニズムはどのように動作しますか?

コアメカニズム

  • シャードレベル: 複数の StreamNode が同じシャードをプライマリ/スタンバイ役割でロード

  • セグメントレベル: 複数の QueryNode が同じセグメントをロード; データは単一コピーとして永続化

読み書き分離

  • 書き込み: プライマリ StreamNode が処理

  • 読み取り: 任意のスタンバイ StreamNode または QueryNode が提供

主な利点

  • 高速フェイルオーバー: プロキシが自動的にトラフィックをスタンバイノードにリダイレクト

  • より高いQPS: 複数のインメモリレプリカが読み取りスループットを向上

  • スムーズなアップグレード: ローリングアップデートによりサービスの不安定さを軽減し、安定性を向上

Q3: グローバルデータベースはクロスリージョン高可用性をどのように実現しますか?

CDC 同期

  • Change Data Capture (CDC) は DDL、DML、およびバルクインポート操作を同期

  • 典型的な同期遅延 < 10秒

  • 非常に低い RPO でクロスリージョン/クロスクラウドDRを可能に

データ書き込み戦略

  • 同一リージョン内の複数AZに同期的にデータ書き込み

  • 書き込み遅延はAZ間レベル

  • 極端なフェイルオーバーシナリオにおいても、データ損失 < 10秒

📘Notes

2026年ロードマップ: クロスリージョンWoodpeckerでRPO = 0を実現

フェイルオーバーモード

  • 手動: OpenAPI または Web コンソール経由

  • 自動: Zilliz ヘルスチェックサービスが故障を検出し、1〜3分でフェイルオーバーを完了

アクセスパターン

モード

特徴

使用例

アクティブ-スタンバイDR

プライマリが読み書きを処理; スタンバイはフェイルオーバー時のみアクティブ化

標準ディザスタリカバリー

アクティブ-アクティブ(マルチリード)

プライマリ書き込み; 複数リージョンでの読み取り(最寄りリージョン読み取り)

グローバル読み取り重視、書き込み軽減ワークロード

マルチプライマリ (2026年登場予定)

両リージョンが書き込みを許可; ユーザーがデータ競合を回避する必要あり

セルベースまたはシャーデッド展開

最新の機能アップデートまたは技術サポートについては、Zilliz Cloud サポートにお問い合わせください。