メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

マルチベクトルハイブリッド検索

多くのアプリケーションでは、タイトルや説明などの豊富な情報セット、またはテキスト、画像、音声などの複数のモダリティによってオブジェクトを検索できます。たとえば、テキストと画像を含むツイートは、テキストまたは画像のいずれかが検索クエリのセマンティクスと一致する場合に検索されます。ハイブリッド検索は、これらの多様なフィールドにわたる検索を組み合わせることで、検索エクスペリエンスを向上させます。Zilliz Cloudは、複数のベクトルフィールドでの検索を許可し、いくつかの近似最近傍(ANN)検索を同時に実行することでこれをサポートします。マルチベクトルハイブリッド検索は、テキストと画像の両方、同じオブジェクトを記述する複数のテキストフィールド、または検索品質を向上させるための密ベクトルと疎ベクトルの両方を検索したい場合に特に役立ちます。

Qx7UwgI6jhrku8bAxZqcYxZMnSe

マルチベクトルハイブリッド検索は、さまざまな検索方法を統合したり、さまざまなモダリティからの埋め込みをスパンしたりします。

  • 疎密ベクトル検索: 密ベクトルはセマンティックな関係を捉えるのに優れており、疎ベクトルは正確なキーワードマッチングに非常に効果的です。ハイブリッド検索は、これらのアプローチを組み合わせて、広範な概念理解と正確な用語の関連性の両方を提供し、検索結果を向上させます。各方法の強みを活用することで、ハイブリッド検索は個々のアプローチの限界を克服し、複雑なクエリに対してより良いパフォーマンスを提供します。セマンティック検索と全文検索を組み合わせたハイブリッド検索に関する詳細なガイドはこちらです。

  • マルチモーダルベクトル検索: マルチモーダルベクトル検索は、テキスト、画像、音声など、さまざまなデータ型を横断して検索できる強力な技術です。このアプローチの主な利点は、異なるモダリティをシームレスで一貫した検索エクスペリエンスに統合できることです。たとえば、製品検索では、ユーザーはテキストクエリを入力して、テキストと画像の両方で記述された製品を見つけることができます。ハイブリッド検索方法を通じてこれらのモダリティを組み合わせることで、検索精度を向上させたり、検索結果を豊かにしたりできます。

各製品にテキストの説明と画像が含まれる実際のユースケースを考えてみましょう。利用可能なデータに基づいて、3種類の検索を実行できます。

  • セマンティックテキスト検索: これは、密ベクトルを使用して製品のテキスト説明をクエリすることを含みます。テキスト埋め込みは、BERTTransformersなどのモデル、またはOpenAIなどのサービスを使用して生成できます。

  • 全文検索: ここでは、疎ベクトルを使用したキーワードマッチングで製品のテキスト説明をクエリします。BM25などのアルゴリズム、またはBGE-M3SPLADEなどの疎埋め込みモデルをこの目的で利用できます。

  • マルチモーダル画像検索: この方法は、密ベクトルを使用したテキストクエリで画像をクエリします。画像埋め込みは、CLIPなどのモデルで生成できます。

このガイドでは、製品の生のテキスト説明と画像埋め込みが与えられた場合に、上記の検索方法を組み合わせたマルチモーダルハイブリッド検索の例を説明します。マルチベクトルデータを保存し、リランキング戦略でハイブリッド検索を実行する方法を示します。

複数のベクトルフィールドを持つコレクションを作成する

コレクションの作成プロセスには、コレクションスキーマの定義、インデックスパラメータの設定、コレクションの作成という3つの主要なステップが含まれます。

スキーマを定義する

マルチベクトルハイブリッド検索の場合、コレクションスキーマ内に複数のベクトルフィールドを定義する必要があります。コレクションで許可されるベクトルフィールドの数に関する詳細については、Zilliz Cloud 制限sを参照してください。

この例では、次のフィールドをスキーマに組み込みます。

  • id: テキストIDを保存するためのプライマリキーとして機能します。このフィールドはINT64データ型です。

  • text: テキストコンテンツを保存するために使用されます。このフィールドはVARCHARデータ型で、最大長は1000バイトです。全文検索を容易にするために、enable_analyzerオプションはTrueに設定されています。

  • text_dense: テキストの密ベクトルを保存するために使用されます。このフィールドはFLOAT_VECTORデータ型で、ベクトル次元は768です。

  • text_sparse: テキストの疎ベクトルを保存するために使用されます。このフィールドはSPARSE_FLOAT_VECTORデータ型です。

  • image_dense: 製品画像の密ベクトルを保存するために使用されます。このフィールドはFLOAT_VETORデータ型で、ベクトル次元は512です。

テキストフィールドで全文検索を実行するために組み込みのBM25アルゴリズムを使用するため、Milvus Functionをスキーマに追加する必要があります。詳細については、全文検索を参照してください。

from pymilvus import (
MilvusClient, DataType, Function, FunctionType
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# Init schema with auto_id disabled
schema = client.create_schema(auto_id=False)

# Add fields to schema
schema.add_field(field_name="id", datatype=DataType.INT64, is_primary=True, description="product id")
schema.add_field(field_name="text", datatype=DataType.VARCHAR, max_length=1000, enable_analyzer=True, description="raw text of product description")
schema.add_field(field_name="text_dense", datatype=DataType.FLOAT_VECTOR, dim=768, description="text dense embedding")
schema.add_field(field_name="text_sparse", datatype=DataType.SPARSE_FLOAT_VECTOR, description="text sparse embedding auto-generated by the built-in BM25 function")
schema.add_field(field_name="image_dense", datatype=DataType.FLOAT_VECTOR, dim=512, description="image dense embedding")

# Add function to schema
bm25_function = Function(
name="text_bm25_emb",
input_field_names=["text"],
output_field_names=["text_sparse"],
function_type=FunctionType.BM25,
)
schema.add_function(bm25_function)

インデックスの作成

コレクションスキーマを定義した後、次のステップはベクトルインデックスを設定し、類似性メトリックを指定することです。指定された例では、以下のようになります。

  • text_dense_index: テキスト密ベクトルフィールドに対して、IP メトリックタイプを持つ AUTOINDEX タイプのインデックスが作成されます。

  • text_sparse_index: テキスト疎ベクトルフィールドに対して、BM25 メトリックタイプを持つ SPARSE_INVERTED_INDEX タイプのインデックスが使用されます。

  • image_dense_index: 画像密ベクトルフィールドに対して、IP メトリックタイプを持つ AUTOINDEX タイプのインデックスが作成されます。

# Prepare index parameters
index_params = client.prepare_index_params()

# Add indexes
index_params.add_index(
field_name="text_dense",
index_name="text_dense_index",
index_type="AUTOINDEX",
metric_type="IP"
)

index_params.add_index(
field_name="text_sparse",
index_name="text_sparse_index",
index_type="AUTOINDEX",
metric_type="BM25"
)

index_params.add_index(
field_name="image_dense",
index_name="image_dense_index",
index_type="AUTOINDEX",
metric_type="IP"
)

コレクションの作成

前の2つのステップで設定したコレクションスキーマとインデックスを使用して、demoという名前のコレクションを作成します。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

このセクションでは、以前に定義したスキーマに基づいてmy_collectionコレクションにデータを挿入します。挿入時には、自動生成される値を持つフィールドを除き、すべてのフィールドに正しい形式でデータが提供されていることを確認してください。この例では、次のようになります。

  • id: 製品IDを表す整数

  • text: 製品説明を含む文字列

  • text_dense: テキスト説明の密な埋め込みを表す768個の浮動小数点値のリスト

  • image_dense: 製品画像の密な埋め込みを表す512個の浮動小数点値のリスト

各フィールドの密な埋め込みを生成するために、同じモデルまたは異なるモデルを使用できます。この例では、2つの密な埋め込みは異なる次元を持ち、異なるモデルによって生成されたことを示唆しています。後で各検索を定義する際には、対応するモデルを使用して適切なクエリ埋め込みを生成するようにしてください。

この例では、テキストフィールドからスパース埋め込みを生成するために組み込みのBM25関数を使用しているため、疎ベクトルを手動で提供する必要はありません。ただし、BM25を使用しないことを選択した場合は、スパース埋め込みを自分で事前に計算して提供する必要があります。

import random

# Generate example vectors
def generate_dense_vector(dim):
return [random.random() for _ in range(dim)]

data=[
{
"id": 0,
"text": "Red cotton t-shirt with round neck",
"text_dense": generate_dense_vector(768),
"image_dense": generate_dense_vector(512)
},
{
"id": 1,
"text": "Wireless noise-cancelling over-ear headphones",
"text_dense": generate_dense_vector(768),
"image_dense": generate_dense_vector(512)
},
{
"id": 2,
"text": "Stainless steel water bottle, 500ml",
"text_dense": generate_dense_vector(768),
"image_dense": generate_dense_vector(512)
}
]

res = client.insert(
collection_name="my_collection",
data=data
)

ステップ1:複数のAnnSearchRequestインスタンスを作成する

ハイブリッド検索は、hybrid_search()関数で複数のAnnSearchRequestを作成することで実装されます。各AnnSearchRequestは、特定のベクトルフィールドに対する基本的なANN検索リクエストを表します。したがって、ハイブリッド検索を実行する前に、各ベクトルフィールドに対してAnnSearchRequestを作成する必要があります。

さらに、AnnSearchRequestexprパラメータを設定することで、ハイブリッド検索のフィルタリング条件を設定できます。フィルタリング検索フィルタリングの説明を参照してください。

📘Notes

ハイブリッド検索では、各AnnSearchRequestは1つのクエリデータのみをサポートします。

さまざまな検索ベクトルフィールドの機能を実証するために、サンプルクエリを使用して3つのAnnSearchRequest検索リクエストを構築します。このプロセスでは、事前に計算された密なベクトルも使用します。検索リクエストは、次のベクトルフィールドをターゲットとします。

  • text_dense:セマンティックテキスト検索用。直接的なキーワードマッチングではなく、意味に基づいた文脈理解と検索を可能にします。

  • text_sparse:全文検索またはキーワードマッチング用。テキスト内の正確な単語またはフレーズ一致に焦点を当てます。

  • image_dense:マルチモーダルなテキストから画像への検索用。クエリのセマンティックコンテンツに基づいて関連する製品画像を検索します。

from pymilvus import AnnSearchRequest

query_text = "white headphones, quiet and comfortable"
query_dense_vector = generate_dense_vector(768)
query_multimodal_vector = generate_dense_vector(512)

# text semantic search (dense)
search_param_1 = {
"data": [query_dense_vector],
"anns_field": "text_dense",
"limit": 2
}
request_1 = AnnSearchRequest(**search_param_1)

# full-text search (sparse)
search_param_2 = {
"data": [query_text],
"anns_field": "text_sparse",
"limit": 2
}
request_2 = AnnSearchRequest(**search_param_2)

# text-to-image search (multimodal)
search_param_3 = {
"data": [query_multimodal_vector],
"anns_field": "image_dense",
"limit": 2
}
request_3 = AnnSearchRequest(**search_param_3)

reqs = [request_1, request_2, request_3]

パラメータ limit が 2 に設定されているため、各 AnnSearchRequest は 2 つの検索結果を返します。この例では、3 つの AnnSearchRequest インスタンスが作成され、合計で 6 つの検索結果が生成されます。

ステップ 2: リランキング戦略を設定する

ANN 検索結果のセットをマージしてリランキングするには、適切なリランキング戦略を選択することが不可欠です。Zilliz Cloud は、いくつかの種類のリランキング戦略を提供しています。これらのリランキングメカニズムの詳細については、Weighted Ranker または RRF Ranker を参照してください。

この例では、特定の検索クエリに特別な重点を置く必要がないため、RRFRanker 戦略を使用します。

ranker = Function(
name="rrf",
input_field_names=[], # Must be an empty list
function_type=FunctionType.RERANK,
params={
"reranker": "rrf",
"k": 100 # Optional
}
)

ハイブリッド検索を開始する前に、コレクションがロードされていることを確認してください。コレクション内のベクトルフィールドにインデックスがない場合、またはメモリにロードされていない場合、ハイブリッド検索メソッドの実行時にエラーが発生します。

res = client.hybrid_search(
collection_name="my_collection",
reqs=reqs,
ranker=ranker,
limit=2
)
for hits in res:
print("TopK results:")
for hit in hits:
print(hit)

以下が出力です。

["['id: 1, distance: 0.006047376897186041, entity: {}', 'id: 2, distance: 0.006422005593776703, entity: {}']"]

Hybrid Search に limit=2 パラメータを指定すると、Zilliz Cloud は 3 つの検索から得られた 6 つの結果を再ランク付けします。最終的に、最も類似した上位 2 つの結果のみが返されます。