メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

エンティティ数のカウント

この記事では、コレクション内のエンティティ数をカウントする方法と、エンティティ数が実際の値と異なる可能性がある理由について説明します。

概要

Zilliz Cloud では、コレクション内のエンティティ数をカウントする方法が2つ提供されています。

  • count(*) を出力フィールドとして使用したクエリ

    コレクション内の正確なエンティティ数を取得するには、この方法を使用し、以下の条件を満たす必要があります。

    • 対象のコレクションがロード済みであること。
    • クエリリクエストで consistency_levelStrong に設定すること。
    • output_field['count(*)'] に設定すること。

    このようなクエリを受信すると、Zilliz Cloud はクエリノードにリクエストを送信し、メモリにすでにロードされているエンティティをカウントします。

    複数のパーティション名をクエリ内で指定することで、それらのパーティションごとのエンティティ数を取得できます。詳細については、「Query with count(*) as the output field」を参照してください。

  • get_collection_stats() の使用

    上記の方法でコレクションの正確なエンティティ数を取得できますが、すべての場面でこの方法を使用することは推奨されません。この処理は基本的にクエリであり、頻繁に呼び出すとネットワークの不安定化や、ビジネスに関連する検索・クエリへの影響を引き起こす可能性があります。

    精度が最重要でない場合は、代わりに get_collection_stats() および get_partition_stats() を使用することを推奨します。この呼び出しは推定されたエンティティ数を提供しますが、対象のコレクションをロードする必要がなく、内部トラッカーが記録している情報を報告するだけなので、コストは非常に小さく無視できるほどです。

    なお、すべてのデータ操作は非同期で実行されるため、内部トラッカーがエンティティ数をリアルタイムで反映できない点にご注意ください。詳細については、「Use get_collection_stats()」を参照してください。

📘Notes

上記のどちらの方法も、同じプライマリキーを持つエンティティを別々のエンティティとしてカウントします。

プログラムによるエンティティ数の取得に加えて、Zilliz Cloud コンソール上でクラスター、コレクション、またはパーティションごとのエンティティ数を確認することもできます。詳細については、「Entity counts on the Zilliz Cloud console」をご覧ください。

count(*) を出力フィールドとして使用したクエリ

正確なエンティティ数を取得するには、コレクションをロードし、count(*) を出力フィールドとして指定してクエリを実行し、そのクエリの整合性レベル(consistency level)を Strong に設定します。

# Count without the entities in growing segments
res = client.query(
collection_name="test_collection",
output_fields=['count(*)']
)

# Count with the entities in growing segments
res = client.query(
collection_name="test_collection",
output_fields=['count(*)'],
consistency_level="Strong"
)

# Count the entities in a specific partition
res = client.query(
collection_name="test_collection",
output_fields=['count(*)'],
partition_names=['_default']
)

# Get the entity count
print(res[0]['count(*)'])
# Output
# 20

get_collection_stats() の使用

前述のとおり、get_collection_stats() はコレクション内のエンティティ数の推定値を返します。この値は実際のエンティティ数と異なる場合があります。このメソッドはコレクションをロードせずに参照として使用できます。

以下の例では、test_collection という名前のコレクションがすでに存在しているものと仮定しています。

from pymilvus import MilvusClient

# 1. Set up a milvus client
client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# 2. Get the entity count of a collection
client.get_collection_stats(collection_name="test_collection")

# Output
#
# {
# 'row_count': 1000
# }

# 3. Get the entity count of a partition
client.get_partition_stats(
collection_name="test_collection",
partition_name="_default"
)

# Output
#
# {
# 'row_count': 1000
# }

Zilliz Cloud コンソールでのエンティティ数

プログラムでエンティティをカウントする代わりに、Zilliz Cloud コンソールにアクセスして、以下のページでクラスター、コレクション、またはパーティションのエンティティ数を確認できます。

メトリクス

クラスターのメトリクスタブで、エンティティ数と**ロードされたエンティティ(概算)**を確認できます。どちらの値も推定値です。曲線の値は、get_collection_stats() を使用して取得されます。データの挿入や削除がこれ以上行われない場合、エンティティ数の曲線は最終的に現在のコレクション内の実際のエンティティ数を反映します。

ZVYcwdlqAhOUqDb4vC3c2Hf8n5e

コレクションの詳細

コレクションの詳細タブで、コレクションの実際のエンティティ数を確認できます。この値は、出力フィールドとして count(*) を使用するクエリ によって取得されます。

PfXfwGQoLhW0OBbVMMfccM0Qnaf

パーティション

コレクションのパーティションタブを使用して、子パーティション内にロードされたエンティティの推定数を確認することもできます。この値は get_partition_stats() を使用して取得されます。

LKThwnS2fhTj8vbFJpEcjAMunwf

よくある質問

  • get_collection_stats() または get_partition_stats() を使用して取得したエンティティ数が、エンティティを挿入した後でも、対象のコレクションまたはパーティション内の実際のエンティティ数を反映しないのはなぜですか?

    これらのメソッドは内部トラッカーが記録している内容のみを報告するため、すべてのデータ操作が非同期であることから、実際のエンティティ数と異なる場合があります。

  • コレクションのメトリクスタブにあるエンティティ数の曲線が、エンティティを挿入または削除しても変化しないのはなぜですか?

    エンティティ数の曲線の値は特定の時点で推定されたものです。すべてのデータ操作が非同期であるため、曲線に反映されるまでに遅延が生じる可能性があります。

  • コレクションのパーティションタブにあるエンティティ数(概算)列に表示される値が、エンティティを挿入または削除しても変化しないのはなぜですか?

    リストされたパーティションに表示される値はすべて推定値です。すべてのデータ操作が非同期であるため、曲線に反映されるまでに遅延が生じる可能性があります。

  • コレクションの概要タブに表示されるロードされたエンティティの値が、コレクション内の実際のエンティティ数を反映しないのはなぜですか?

    ロードされたエンティティに表示される値は正確です。この値と通常のクエリで取得したエンティティ数との間に差がある場合、コレクション内の一部のエンティティが同一のプライマリキーを持っている可能性があります。

    出力フィールドとして count(*) を使用するクエリは、同一のプライマリキーを持つエンティティを別々のエンティティとして扱いますが、他のクエリは最終結果を返す前に同一のプライマリキーを持つエンティティを除外します。