メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

クエリ

ANN 検索に加えて、Zilliz Cloud はクエリによるメタデータフィルタリングもサポートしています。このページでは、Query、Get、QueryIterators を使用してエンティティの取得、メタデータのフィルタリング、クエリ結果の並べ替え、スカラー値の集計を行う方法を紹介します。

📘Notes

コレクション作成後に新しいフィールドを動的に追加した場合、これらのフィールドを含むクエリでは、値が明示的に設定されていないエンティティに対して定義済みのデフォルト値または NULL が返されます。詳細は 既存コレクションへのフィールド追加 を参照してください。

概要

コレクションはさまざまなタイプのスカラーフィールドを保存できます。Zilliz Cloud に1つ以上のスカラーフィールドに基づいてエンティティをフィルタリングさせることができます。Zilliz Cloud は3種類のクエリを提供しています: Query、Get、および QueryIterator。下の表はこれら3つのクエリタイプを比較しています。

Get

Query

QueryIterator

適用シナリオ

指定された主キーを持つエンティティを検索する場合。

カスタムフィルタリング条件を満たすすべてまたは指定された数のエンティティを検索する場合

ページネーションクエリでカスタムフィルタリング条件を満たすすべてのエンティティを検索する場合。

フィルタリング方法

主キーによる

フィルタリング式による。

フィルタリング式による。

必須パラメータ

  • コレクション名

  • 主キー

  • コレクション名

  • フィルタリング式

  • コレクション名

  • フィルタリング式

  • クエリごとに返すエンティティ数

オプションパラメータ

  • パーティション名

  • 出力フィールド

  • パーティション名

  • 返すエンティティ数

  • 出力フィールド

  • パーティション名

  • 合計で返すエンティティ数

  • 出力フィールド

返却値

指定されたコレクションまたはパーティション内で、指定された主キーを持つエンティティを返します。

指定されたコレクションまたはパーティション内で、カスタムフィルタリング条件を満たすすべてまたは指定された数のエンティティを返します。

ページネーションクエリを通じて、指定されたコレクションまたはパーティション内でカスタムフィルタリング条件を満たすすべてのエンティティを返します。

メタデータフィルタリングの詳細については、フィルタリングフィルタリングの解説 を参照してください。

Get の使用

主キーでエンティティを検索する必要がある場合、Get メソッドを使用できます。以下のコード例では、コレクションに idvectorcolor という3つのフィールドがあることを前提としています。

[
{"id": 0, "vector": [0.3580376395471989, -0.6023495712049978, 0.18414012509913835, -0.26286205330961354, 0.9029438446296592], "color": "pink_8682"},
{"id": 1, "vector": [0.19886812562848388, 0.06023560599112088, 0.6976963061752597, 0.2614474506242501, 0.838729485096104], "color": "red_7025"},
{"id": 2, "vector": [0.43742130801983836, -0.5597502546264526, 0.6457887650909682, 0.7894058910881185, 0.20785793220625592], "color": "orange_6781"},
{"id": 3, "vector": [0.3172005263489739, 0.9719044792798428, -0.36981146090600725, -0.4860894583077995, 0.95791889146345], "color": "pink_9298"},
{"id": 4, "vector": [0.4452349528804562, -0.8757026943054742, 0.8220779437047674, 0.46406290649483184, 0.30337481143159106], "color": "red_4794"},
{"id": 5, "vector": [0.985825131989184, -0.8144651566660419, 0.6299267002202009, 0.1206906911183383, -0.1446277761879955], "color": "yellow_4222"},
{"id": 6, "vector": [0.8371977790571115, -0.015764369584852833, -0.31062937026679327, -0.562666951622192, -0.8984947637863987], "color": "red_9392"},
{"id": 7, "vector": [-0.33445148015177995, -0.2567135004164067, 0.8987539745369246, 0.9402995886420709, 0.5378064918413052], "color": "grey_8510"},
{"id": 8, "vector": [0.39524717779832685, 0.4000257286739164, -0.5890507376891594, -0.8650502298996872, -0.6140360785406336], "color": "white_9381"},
{"id": 9, "vector": [0.5718280481994695, 0.24070317428066512, -0.3737913482606834, -0.06726932177492717, -0.6980531615588608], "color": "purple_4976"},
]

次のように、ID でエンティティを取得できます。

from pymilvus import MilvusClient

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

res = client.get(
collection_name="my_collection",
ids=[0, 1, 2],
output_fields=["vector", "color"]
)

print(res)

クエリの使用

基本クエリ

カスタムフィルタリング条件でエンティティを検索する必要がある場合は、Query メソッドを使用します。以下のコード例では、idvectorcolor という 3 つのフィールドが存在することを前提とし、color の値が red で始まる指定された数のエンティティを返します。

from pymilvus import MilvusClient

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

res = client.query(
collection_name="my_collection",
filter="color like \"red%\"",
output_fields=["vector", "color"],
limit=3
)

クエリ結果の並べ替え
Private Preview

デフォルトでは、クエリは不定の順序で結果を返します。order_by パラメータを使用して、1 つ以上のスカラーフィールドで結果を並べ替えます。order_by を使用する際は、以下の点に注意してください:

  • order_bylimit と一緒に使用する必要があります。

  • サポートされているフィールド型:INT8INT16INT32INT64FLOATDOUBLE、および VARCHAR。ベクトル、JSON、または ARRAY フィールドによる並べ替えはサポートされていません。

  • NULL 許容フィールドで並べ替える場合、昇順では NULL 値が末尾に配置され(NULLS LAST)、降順では先頭に配置されます(NULLS FIRST)。

基本的な並べ替え

order_by パラメータに "field_name:direction" 形式の文字列リストを渡します。ここで、directionasc(昇順)または desc(降順)のいずれかです。ascdesc は大文字小文字を区別することに注意してください。

from pymilvus import MilvusClient

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# Sort results by id in ascending order
res = client.query(
collection_name="my_collection",
filter="color like \"red%\"",
output_fields=["vector", "color"],
limit=3,
order_by=["id:asc"],
)

Multi-field Sort

複数のフィールドで同時にソートできます。結果はまずリストの最初のフィールドで順序付けられます。そのフィールドの値が 2 つの行で同じ場合、2 番目のフィールドで順序が決定され、以降同様です。

# Sort by rating descending, then by price ascending for ties
res = client.query(
collection_name="my_collection",
filter="",
output_fields=["color", "rating", "price"],
limit=10,
order_by=["rating:desc", "price:asc"],
)

Pagination with Sort

order_bylimit および offset と組み合わせて、ソートされた結果をページネーションできます。例えば、価格でソートされた製品リストを複数のページにわたって表示する場合、各ページは重複や欠落なく、正しい価格順序で次のバッチのアイテムを表示します。

# Page 1
page1 = client.query(
collection_name="my_collection",
filter="color like \"red%\"",
output_fields=["color", "price"],
limit=5,
offset=0,
order_by=["price:asc"],
)

# Page 2
page2 = client.query(
collection_name="my_collection",
filter="color like \"red%\"",
output_fields=["color", "price"],
limit=5,
offset=5,
order_by=["price:asc"],
)

クエリ結果の集計
Private Preview

クエリ結果を 1 つ以上のスカラーフィールドでグループ化し、グループごとに集計を計算できます。サポートされている集計演算子は countminmaxsumavg です。

group_by_fields を使用する際は、以下の点に注意してください:

  • group_by_fields でサポートされるフィールド型は INT8INT16INT32INT64VARCHARTIMESTAMPTZ です。FLOATDOUBLE、ベクトル、JSONARRAY フィールドでのグループ化はエラーになります。

  • sumavg は数値型フィールドでのみ使用できます。VARCHAR フィールドに適用するとエラーになります。

集計を有効にするには、query()group_by_fields を渡し、output_fields に集計式(count(*)count(<field>)min(<field>)max(<field>)sum(<field>)avg(<field>))を追加します。

次の例では、エンティティを color フィールドでグループ化し、各色グループ内のエンティティ数を返します:

from pymilvus import MilvusClient

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

res = client.query(
collection_name="my_collection",
filter="",
group_by_fields=["color"],
output_fields=["color", "count(*)"],
)

# [{'color': 'red', 'count(*)': 10},
# {'color': 'orange', 'count(*)': 10},
# {'color': 'yellow', 'count(*)': 10},
# {'color': 'green', 'count(*)': 10},
# {'color': 'blue', 'count(*)': 10}]

1 回の呼び出しで複数の集計式を指定することもできます。次の例では color でグループ化し、各グループの行数、平均価格、最大評価を返します:

res = client.query(
collection_name="my_collection",
filter="",
group_by_fields=["color"],
output_fields=["color", "count(*)", "avg(price)", "max(rating)"],
)

# [{'color': 'red', 'count(*)': 10, 'avg(price)': 65.22, 'max(rating)': 5},
# {'color': 'orange', 'count(*)': 10, 'avg(price)': 48.67, 'max(rating)': 5},
# {'color': 'yellow', 'count(*)': 10, 'avg(price)': 64.15, 'max(rating)': 3},
# {'color': 'green', 'count(*)': 10, 'avg(price)': 58.28, 'max(rating)': 5},
# {'color': 'blue', 'count(*)': 10, 'avg(price)': 50.20, 'max(rating)': 5}]

group_by_fields に複数のフィールドを渡すことで、複合グループを計算できます。次の例では (color, rating) でグループ化し、各バケットの価格レンジを計算します:

res = client.query(
collection_name="my_collection",
filter="",
group_by_fields=["color", "rating"],
output_fields=["color", "rating", "min(price)", "max(price)"],
)

# [{'color': 'red', 'rating': 5, 'min(price)': 34.51, 'max(price)': 70.90},
# {'color': 'orange', 'rating': 2, 'min(price)': 12.39, 'max(price)': 81.99},
# {'color': 'yellow', 'rating': 2, 'min(price)': 22.62, 'max(price)': 88.24},
# {'color': 'green', 'rating': 1, 'min(price)': 18.35, 'max(price)': 59.53},
# {'color': 'blue', 'rating': 4, 'min(price)': 21.23, 'max(price)': 82.45},
# ...]

group_by_fieldslimit と組み合わせることで、返されるグループ数に上限を設定できます。これはフィールドのカーディナリティが高く、バケットのサンプルだけが必要な場合に有効です:

res = client.query(
collection_name="my_collection",
filter="",
group_by_fields=["color"],
output_fields=["color", "avg(price)", "count(*)"],
limit=5,
)

# [{'color': 'red', 'avg(price)': 65.22, 'count(*)': 10},
# {'color': 'orange', 'avg(price)': 48.67, 'count(*)': 10},
# {'color': 'yellow', 'avg(price)': 64.15, 'count(*)': 10},
# {'color': 'green', 'avg(price)': 58.28, 'count(*)': 10},
# {'color': 'blue', 'avg(price)': 50.20, 'count(*)': 10}]

QueryIterator の使用

カスタムのフィルタリング条件に基づいてエンティティを検索する必要があり、かつページネーションによるクエリを行う場合、QueryIterator を作成し、その next() メソッドを使用してすべてのエンティティを順に取得し、フィルタリング条件を満たすものを見つけます。以下のコード例では、idvectorcolor という3つのフィールドが存在し、color フィールドの値が red で始まるすべてのエンティティを返すことを前提としています。

iterator = client.query_iterator(
"my_collection",
batch_size=10,
filter="color like \"red%\"",
output_fields=["color"]
)

results = []

while True:
result = iterator.next()
if not result:
iterator.close()
break

print(result)
results += result

パーティションでのクエリ

Get、Query、または QueryIterator リクエストにパーティション名を含めることで、1つまたは複数のパーティション内でクエリを実行することもできます。以下のコード例では、コレクション内に PartitionA という名前のパーティションが存在すると仮定しています。

res = client.get(
collection_name="my_collection",
partitionNames=["partitionA"],
ids=[10, 11, 12],
output_fields=["vector", "color"]
)

res = client.query(
collection_name="my_collection",
partitionNames=["partitionA"],
filter="color like \"red%\"",
output_fields=["vector", "color"],
limit=3
)

# Use QueryIterator
iterator = client.query_iterator(
"my_collection",
partition_names=["partitionA"],
batch_size=10,
filter="color like \"red%\"",
output_fields=["color"]
)

results = []
while True:
result = iterator.next()
if not result:
iterator.close()
break

print(result)
results += result

クエリによるランダムサンプリング

データ探索や開発テストのためにコレクションから代表的なデータのサブセットを抽出するには、RANDOM_SAMPLE(sampling_factor) 式を使用します。ここで sampling_factor は 0 から 1 の間の浮動小数点数で、サンプリングするデータの割合を表します。

📘Notes

詳細な使用方法、高度な例、およびベストプラクティスについては、ランダムサンプリングを参照してください。

# Sample 1% of the entire collection
res = client.query(
collection_name="my_collection",
filter="RANDOM_SAMPLE(0.01)",
output_fields=["vector", "color"]
)

print(f"Sampled {len(res)} entities from collection")

# Combine with other filters - first filter, then sample
res = client.query(
collection_name="my_collection",
filter="color like \"red%\" AND RANDOM_SAMPLE(0.005)",
output_fields=["vector", "color"],
limit=10
)

print(f"Found {len(res)} red items in sample")

クエリのタイムゾーンを一時的に設定する

コレクションに TIMESTAMPTZ フィールドがある場合、クエリ呼び出しで timezone パラメータを設定することで、単一の操作に対してデータベースまたはコレクションのデフォルトタイムゾーンを一時的に上書きできます。これにより、操作中の TIMESTAMPTZ 値の表示方法と比較方法が制御されます。

timezone の値は、有効な IANA タイムゾーン識別子(例: Asia/ShanghaiAmerica/ChicagoUTC)である必要があります。TIMESTAMPTZ フィールドの使用方法の詳細については、TIMESTAMPTZ フィールド を参照してください。

以下の例は、クエリ操作のタイムゾーンを一時的に設定する方法を示しています:

# Query data and display the tsz field converted to "America/Havana"
results = client.query(
"my_collection",
filter="id <= 10",
output_fields=["id", "tsz", "vec"],
limit=2,
timezone="America/Havana",
)