メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

メトリクスとアラートのリファレンス

このリファレンスでは、Zilliz Cloudクラスターの監視メトリクスの説明、および組織およびプロジェクトレベルで設定できるアラートターゲットについて説明しています。

クラスタメトリクス

Zilliz Cloudコンソールのメトリクスタブには、さまざまなグラフィカルな表現が表示されます。

表には、各メトリックの説明と、クラスターリソースの使用量がしきい値を超えた場合に実行することをお勧めするアクションが示されています。

📘ノート

現在、無料クラスタではCU容量という1つのメトリックしか提供されていません。高度なメトリックの範囲を解除するには、プランレベルをアップグレードしてください。

メトリック名

ユニット

説明する

推奨アクション

ポッドリソース

CPU使用率を含める

コア

ポッドが使用するCPUコアの数。

リソースの使用状況を定期的に監視して記録し、トレンドや潜在的なボトルネックを特定します。

リミットのCPU使用率

%

limitの値におけるポッドのCPU使用率の割合。

ワークロードを監視し、使用傾向が上昇し続ける場合は、リソース使用量を最適化するか、CPU制限を増やすことを検討してください。

メモリ使用量

MB

ポッド内のコンテナのメモリ使用量(キャッシュを除く)。

リソースの使用状況を定期的に監視して記録し、トレンドや潜在的なボトルネックを特定します。

リミットのメモリ使用率

%

limitの値におけるポッドメモリ使用量の割合。

メモリ使用量を監視し、潜在的なメモリリークやアプリケーションでの非効率なメモリ使用量を特定します。

ネットワークインバウンドフロー

Mbpsの

ポッドのネットワークインバウンドフロー。

外部ソースから受信したデータ量を追跡して分析し、ネットワークのパフォーマンスを監視し、潜在的なネットワークの混雑や帯域幅の問題を特定するのに役立ちます。

ネットワークアウトバウンドフロー

Mbpsの

ポッドのネットワークアウトバウンドフロー。

外部ソースに送信されるデータ量を追跡して分析し、ネットワークパフォーマンスを監視し、潜在的なネットワークの混雑や帯域幅の問題を特定するのに役立ちます。

リソース

>

>

>

CUコンピュテーション

%

CUの総計算能力に対する利用された計算能力の尺度。 このメトリックは、専用クラスターまたはBYOCクラスターでのみ使用できます。

70%-80%:サービスの状態を確認し、スケールアップの準備をしてください。 >90%:サービスの中断を避けるためにすぐにスケールアップしてください。

CUの容量

%

CUの総容量に対する使用済み容量の尺度。 このメトリックは、FreeDedicated、またはBYOCクラスターで使用できます。クラスタープランの階層の詳細については、「詳細なプラン比較」を参照してください。

70%-80%:サービスの状態を確認し、スケールアップの準備をしてください。 >90%:サービスの中断を避けるためにすぐにスケールアップしてください。

100%: CU容量が100%になると、クラスタにデータを書き込むことができなくなります。サービスの中断を避けるために、すぐにスケールアップしてください。

ストレージ

GB

データとインデックスによって消費される永続ストレージの合計金額。

アラートを構成してストレージの使用状況を監視します。

パフォーマンス

QPS/VPS(読み取り)

QPS/VPSの

QPS: 1秒あたりの読み取りリクエスト(検索とクエリ)の数。 VPS:ベクトルに対する1秒あたりの読み取りリクエスト(検索)の数。クエリ操作にベクトルが含まれないため、VPSはクエリリクエストには使用できません。

システムパフォーマンスの監視については、ベンチマークを参照してください。

QPS/VPS(書き込み)

QPS/VPSの

QPS: 1秒あたりの書き込み要求(挿入、一括挿入、アップロード、削除)の数。 VPS:ベクトルに対する1秒あたりの書き込み要求(挿入、一括挿入、挿入、削除)の数。

システムパフォーマンスの監視については、ベンチマークを参照してください。

レイテンシ(読み取り)

ms

クライアントがサーバーに読み取り要求(検索とクエリ)を送信し、クライアントが応答を受信するまでの経過時間。 右側の拡張ドロップダウンメニューから平均またはP 99を選択すると、平均またはP 99レイテンシーが表示されます。

-

レイテンシー(書き込み)

ms

クライアントがサーバーに書き込み要求(挿入、挿入、削除)を送信してから、クライアントが応答を受信するまでの経過時間。 右側の拡張ドロップダウンメニューから平均またはP 99を選択すると、平均またはP 99レイテンシーが表示されます。

-

リクエストの失敗率(読み取り)

%

1秒あたりのすべての読み取り要求における失敗した読み取り要求(検索およびクエリ)の割合。

アラートを設定して、読み取り要求の失敗率を監視します。

リクエストの失敗率(書き込み)

%

1秒あたりのすべての書き込み要求における失敗した書き込み要求(挿入、一括挿入、upsert、削除)の割合。

アラートを設定して、書き込み要求の失敗率を監視します。

クエリー数が遅い

カウント/分

すべての検索およびクエリリクエストを含む遅いクエリ操作の数。デフォルトでは、レイテンシが5秒のすべてのリクエストは遅いクエリと見なされます。 このメトリックタイプは、DedicatedClusters of theEnterpriseEditionまたはBYOCClustersでのみ使用できます。

必要に応じてクラスター構成を調整して、問題のあるクエリを特定し、パフォーマンスを調整します。

クラスタ書き込み性能Capacity

%

書き込み操作の現在のレート/書き込みレートの制限。 このメトリックタイプは、DedicatedClusters of theEnterpriseEditionまたはBYOCClustersでのみ使用できます。

現在のレートが高すぎる場合(80%を超えることが推奨されます)、書き込みレートを下げることをお勧めします。

フラッシュ操作の回数

カウント/分

クラスターに対するフラッシュ操作の数。 このメトリックタイプは、DedicatedClusters of theEnterpriseEditionまたはBYOCClustersでのみ使用できます。

フラッシュ操作を頻繁に実行すると、クラスタの全体的なパフォーマンスに悪影響を及ぼす可能性があります。詳細については、Zillizクラウドの制限を参照してください。

データ

コレクション数

数える

クラスター内に作成されたコレクションの数。

-

エンティティカウント

数える

クラスタに挿入されるエンティティの数。 右側の拡張ドロップダウンメニューから特定のコレクションを選択すると、コレクションレベルのエンティティの数が表示されます。

-

ロードされたエンティティ

数える

クラスタによってロードされた(アクティブにサービスされている)エンティティの数。 右側の拡張ドロップダウンメニューから特定のコレクションを選択すると、コレクションレベルでロードされたエンティティの数が表示されます。 このメトリックは、専用クラスターまたはBYOCクラスターでのみ使用できます。

-

アンロードされたコレクション数

数える

クラスター内のアンロードされたコレクションの数。 このメトリックタイプは、DedicatedClusters of theEnterpriseEditionまたはBYOCClustersでのみ使用できます。

組織のアラート

組織のアラートによって、請求に関連する</include>ライセンスに関連する問題、例えば期限切れのクレジットカード、無料クレジットのステータス、前払いの残高アラート、使用コストに関する通知ライセンスコアと有効期間などが通知されます。

プロジェクトのアラート

プロジェクトアラートは、CUの使用状況、QPSのしきい値、レイテンシの問題、リクエストの異常など、クラスターの運用面に焦点を当て、最適なクラスターパフォーマンスを維持します。

各プロジェクトのアラートターゲットについて、トリガー条件には、アラートがトリガーされるために満たす必要がある閾値と期間値が含まれます。条件は、次の演算子のいずれかに設定できます:>、>=、<、<=、=。閾値は、クエリレイテンシ、クエリQPS、検索QPS、CU容量、CU計算などのメトリックの数値などの数値である場合があります。期間は、閾値を超える必要がある期間を指定し、最小1分、最大30分に設定されます。

デフォルトのアラートターゲット

Zilliz Cloudは、重要な問題が適切なアクションで迅速に特定され、対処されるように、共通のアラートターゲットを事前に定義しています。

推奨アクションの詳細については、クラスターメトリクスを参照してください。

アラートターゲット

ユニット

デフォルトのトリガー条件

CUコンピュテーション

%

警告: 70%以上のトリガーアラートは、10分以上にわたって計算能力を利用しました。 クリティカル: 90%以上のトリガーアラートは、10分以上にわたって計算能力を利用しました。

CUの容量

%

警告:>70%のトリガーアラートは、10+分のCU容量を利用しました。 クリティカル: CU容量が10分以上使用され、90%以上のトリガーアラートが発生しました。

検索する(QPS)

QPS

10分以上、秒間50回以上の検索操作で警告アラートをトリガーしてください。

クエリー(QPS)

QPS

10分以上毎秒50回以上のクエリ操作で警告アラートをトリガーします。

検索レイテンシ(P 99)

ms

10分以上のP 99レイテンシ>1,000 msで警告アラートをトリガーします。

クエリーの遅延(P 99)

ms

10分以上のP 99レイテンシ>1,000 msで警告アラートをトリガーします。

カスタムアラートターゲット

定義済みの既定のプロジェクトアラートに加えて、必要に応じてカスタムアラートターゲットを構成することもできます。

アラートターゲット

説明する

リソース

ストレージ

ストレージの使用状況を監視し、使用状況が一定期間閾値を超えた場合に通知を送信します。

パフォーマンス(読み取り/書き込み)

バルクインサート(QPS)

一括挿入操作のレートを監視し、一定期間、レートがしきい値を超えた場合に通知を送信します。

削除する(QPS)

削除操作のレートを監視し、レートが一定期間しきい値を超えた場合に通知を送信します。

インサート(QPS)

挿入操作のレートを監視し、レートが一定期間しきい値を超えた場合に通知を送信します。

インサート(VPS)

ベクトル挿入操作のレートを監視し、一定期間、レートがしきい値を超えた場合に通知を送信します。

検索する(VPS)

ベクトル検索操作のレートを監視し、レートが一定期間閾値を超えた場合に通知を送信します。

アップサート(QPS)

upsert操作のレートを監視し、レートが一定期間しきい値を超えた場合に通知を送信します。

アップサート(VPS)

ベクトルupsert操作のレートを監視し、レートが一定期間しきい値を超えた場合に通知を送信します。

クラスタへの書き込みは無効です

クラスタへの書き込み操作が禁止されていないかを監視します。書き込み禁止がトリガーされた場合は、すぐにスケールアウトしてください。

パフォーマンス(レイテンシ)

レイテンシーを削除(平均)

削除要求の平均遅延を監視し、遅延が一定期間のしきい値を超えた場合に通知を送信します。

遅延を削除(P 99)

削除要求のP 99遅延を監視し、遅延が一定期間のしきい値を超えた場合に通知を送信します。

挿入レイテンシー(平均)

挿入リクエストの平均遅延を監視し、遅延が一定期間のしきい値を超えた場合に通知を送信します。

レイテンシを挿入(P 99)

挿入リクエストのP 99レイテンシを監視し、レイテンシが一定期間閾値を超えた場合に通知を送信します。

クエリーレイテンシー(平均)

クエリリクエストの平均遅延を監視し、遅延が一定期間のしきい値を超えた場合に通知を送信します。

検索リクエストの遅延(平均)

検索リクエストの平均遅延を監視し、遅延が一定期間のしきい値を超えた場合に通知を送信します。

Upsertレイテンシー(平均)

upsertリクエストの平均レイテンシを監視し、レイテンシが一定期間閾値を超えた場合に通知を送信します。

Upsertレイテンシ(P 99)

upsertリクエストのP 99レイテンシを監視し、レイテンシが一定期間閾値を超えた場合に通知を送信します。

パフォーマンス(リクエスト失敗率)

バルクインサートの故障率

一括挿入要求の失敗率を監視し、一定期間のしきい値を超えた場合に通知を送信します。

削除の失敗率

削除要求の失敗率を監視し、一定期間のしきい値を超えた場合に通知を送信します。

挿入の失敗率

挿入要求の失敗率を監視し、一定期間のしきい値を超えた場合に通知を送信します。

クエリ失敗率

クエリリクエストの失敗率を監視し、一定期間閾値を超えた場合に通知を送信します。

検索の失敗率

検索リクエストの失敗率を監視し、一定期間のしきい値を超えた場合に通知を送信します。

クエリー数が遅い

遅いクエリの数を監視し、値が一定期間しきい値を超えた場合に通知を送信します。 デフォルトでは、レイテンシが5秒のすべてのリクエストは遅いクエリと見なされます。

Upsertの失敗率

upsertリクエストの失敗率を監視し、一定期間閾値を超えた場合は通知を送信します。

データ

ロードされたエンティティ

ロードされたエンティティの数を監視し、カウントが一定期間しきい値を超えた場合に通知を送信します。

トータルコレクション

合計コレクション数を監視し、カウントが一定期間のしきい値を超えた場合に通知を送信します。

エンティティの合計

合計エンティティ数を監視し、カウントが一定期間しきい値を超えた場合に通知を送信します。

その他

クラスターは異常です

クラスターの状態を監視して、クラスターが正常に機能していることを確認します。これには、クラスターの負荷と使用状況の確認が含まれます。

監査ログのストリーミングステータスが異常です

監査ログストリーミングの状態を監視します。これは通常、クラスターが停止、再開、凍結などの移行状態にあるときに発生します。これらの期間中、監査ログストリーミングは正常に機能しません。