メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

エンティティ数のカウント

この記事では、コレクション内のエンティティ数をカウントする方法を紹介し、エンティティ数が実際の数と異なる理由を説明します。

概要

Zilliz Cloud では、コレクション内のエンティティ数をカウントする方法が2つ用意されています。

  • 出力フィールドとして count(*) を使用したクエリ

    コレクション内の正確なエンティティ数を取得するには、この方法を使用し、以下を確実にしてください:

    • 対象となるコレクションをロードしている。

    • クエリ要求で consistency_levelStrong に設定する。

    • output_field['count(*)'] に設定する。

    このようなクエリを受信した際、Zilliz Cloud はクエリノードにリクエストを送信し、既にメモリにロードされているエンティティをカウントします。

    クエリで複数のパーティション名を指定することで、これらのパーティション内の対応するエンティティ数を取得できます。詳細については出力フィールドとして count(*) を使用したクエリを参照してください。

  • get_collection_stats() の使用

    上記の方法でコレクションの正確な数を取得できますが、この方法を常に使用することは推奨されません。このプロセスは基本的にクエリであり、頻繁に呼び出すと、ネットワークのジッターが発生したり、業務関連の検索やクエリに影響を与える可能性があります。

    精度が主な関心事でない場合は、代わりに get_collection_stats() 及び get_partition_stats() を使用してください。この呼び出しはエンティティ数の推定値を提供しますが、対象コレクションをロードする必要がなく、内部トラッカーが記録した内容を報告するだけであるため、コストは無視できる程度です。

    ご参考までに、すべてのデータ操作は非同期的に行われるため、内部トラッカーがエンティティ数をリアルタイムに反映できないのです。詳細についてはget_collection_stats() の使用を参照してください。

📘注釈

上述の両方の方法では、同じ主キーを持つエンティティを別々のエンティティとしてカウントします。

エンティティ数をプログラムで取得する代わりに、Zilliz Cloud コンソール上でクラスタ、コレクション、またはパーティションの数値を確認することもできます。詳細はZilliz Cloud コンソールでのエンティティ数をご覧ください。

出力フィールドとして count(*) を使用したクエリ

正確なエンティティ数を取得するには、コレクションをロードし、出力フィールドとして count(*) を使用してクエリを実行し、クエリの整合性レベルを Strong に設定します。

# 増分セグメントのエンティティをカウントしない
res = client.query(
collection_name="test_collection",
output_fields=['count(*)']
)

# 増分セグメントのエンティティを含めてカウント
res = client.query(
collection_name="test_collection",
output_fields=['count(*)'],
consistency_level="Strong"
)

# 特定のパーティションのエンティティをカウント
res = client.query(
collection_name="test_collection",
output_fields=['count(*)'],
partition_names=['default']
)

# エンティティ数を取得
print(res[0]['count(*)'])
# 出力
# 20

get_collection_stats() の使用

上記のように、get_collection_stats() は、コレクション内のエンティティ数の推定値を返します。これは実際のエンティティ数と異なる場合があります。コレクションをロードせずに参考として使用できます。

以下の例では、test_collection という名前のコレクションが存在すると仮定しています。

from pymilvus import MilvusClient

# 1. Milvusクライアントの設定
client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# 2. コレクションのエンティティ数を取得
client.get_collection_stats(collection_name="test_collection")

# 出力
#
# {
# 'row_count': 1000
# }

# 3. パーティションのエンティティ数を取得
client.get_partition_stats(
collection_name="test_collection",
partition_name="_default"
)

# 出力
#
# {
# 'row_count': 1000
# }

Zilliz Cloud コンソールでのエンティティ数

エンティティをプログラムでカウントする代わりに、Zilliz Cloud コンソールにアクセスして、以下のページでクラスタ、コレクション、またはパーティションのエンティティ数を確認することもできます。

メトリクス

Metrics タブでクラスタの エンティティ数ロードされたエンティティ(推定) を確認できます。どちらの値も推定値です。グラフの値はget_collection_stats() を使用して取得されます。これ以上のデータ挿入と削除がない場合、最終的に エンティティ数 グラフは現在のコレクション内の実際のエンティティ数を反映します。

UGT3bXxnjordXpxhTZUcMYK6nQg

コレクションの詳細

詳細タブでコレクションの実際のエンティティ数を確認できます。この値は出力フィールドとして count(*) を使用したクエリを使用して取得されます。

L8ImbqFLIonMTxx47WBcF5IbnTf

パーティション

コレクションの パーティション タブを使用して、その子パーティションにロードされたエンティティ数の推定値を確認することもできます。この値は get_partition_stats() を使用して取得されます。

Y4Etb0AITotVQNxvzs4cZCHsn9d

よくある質問

  • いくつかのエンティティを挿入した後に get_collection_stats() または get_partition_stats() を使用して取得したエンティティ数が、対象のコレクションまたはパーティション内の実際のエンティティ数を反映していないのはなぜですか?

    これらの方法では、内部トラッカーが記録した内容のみを報告します。すべてのデータ操作が非同期であるため、実際のエンティティ数とは異なる場合があります。

  • いくつかのエンティティを挿入または削除した後に、コレクションの Metrics タブのエンティティ数グラフが変化しないのはなぜですか?

    エンティティ数 グラフの値は特定の時間点で推定されます。すべてのデータ操作が非同期であるため、グラフに反映されるまでに遅延が発生する場合があります。

  • いくつかのエンティティを挿入または削除した後に、コレクションの Partitions タブの Loaded Entity Count (Approx.) 列に表示される値が変化しないのはなぜですか?

    一覧表示されているパーティションの値はすべて推定値です。すべてのデータ操作が非同期であるため、グラフに反映されるまでに遅延が発生する場合があります。

  • コレクションの Overview タブの Loaded Entities に表示される値が、コレクション内の実際のエンティティ数を反映していないのはなぜですか?

    Loaded Entities に表示される値は正確です。通常のクエリで得られるエンティティ数と差がある場合、コレクション内にあるいくつかのエンティティが同じ主キーを持っている可能性があります。

    count(*) を出力フィールドとして使用したクエリでは、同じ主キーを持つエンティティを別のエンティティとして扱いますが、他のクエリでは同じ主キーを持つエンティティは最後の結果を返す前に省略されることに注意してください。