メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

マルチベクトルハイブリッド検索

多くのアプリケーションでは、オブジェクトをタイトルや説明といった豊富な情報セット、またはテキスト・画像・音声などの複数のモダリティ(形式)で検索できます。例えば、テキストと画像を含むツイートは、検索クエリの意味にテキストまたは画像のいずれかが一致する場合に検索対象となります。ハイブリッド検索は、これらの多様なフィールドにまたがる検索を組み合わせることで、検索体験を向上させます。Zilliz Cloud では、複数のベクトルフィールドに対して同時に Approximate Nearest Neighbor (ANN) 検索を実行できるため、このような検索をサポートしています。マルチベクトルハイブリッド検索は、テキストと画像の両方を検索したい場合や、同一オブジェクトを記述する複数のテキストフィールドを検索したい場合、あるいは検索品質を向上させるために密ベクトルと疎ベクトルの両方を使用したい場合に特に有効です。

Qx7UwgI6jhrku8bAxZqcYxZMnSe

マルチベクトルハイブリッド検索は、異なる検索手法を統合するか、またはさまざまなモダリティに由来する埋め込み表現(embeddings)を組み合わせます。

  • 疎密ベクトル検索(疎密ベクトル検索): 密ベクトル(Dense Vector) はセマンティック(意味的)な関係性を捉えるのに優れており、一方で疎ベクトル(Sparse Vector) はキーワードの正確な一致に非常に効果的です。ハイブリッド検索はこれらのアプローチを組み合わせることで、広範な概念的理解と正確な用語の関連性の両方を提供し、検索結果を改善します。各手法の強みを活用することで、個別のアプローチが抱える限界を克服し、複雑なクエリに対してより優れたパフォーマンスを実現します。セマンティック検索と全文検索を組み合わせたハイブリッド検索の詳細なガイドもご参照ください。

  • マルチモーダルベクトル検索(マルチモーダルベクトル検索): マルチモーダルベクトル検索は、テキスト・画像・音声などさまざまなデータタイプにまたがって検索を行う強力な手法です。このアプローチの主な利点は、異なるモダリティをシームレスかつ一貫した検索体験に統合できることです。例えば商品検索では、ユーザーがテキストクエリを入力して、テキストと画像の両方で記述された商品を見つけたい場合があります。ハイブリッド検索手法を通じてこれらのモダリティを組み合わせることで、検索精度を高めたり、検索結果をより豊かにしたりできます。

ここでは、各商品にテキストによる説明と画像が含まれているという実世界のユースケースを考えてみましょう。利用可能なデータに基づき、以下の3種類の検索が可能です。

  • セマンティックテキスト検索(Semantic Text Search): 商品のテキスト説明に対して密ベクトルを用いてクエリを実行します。テキスト埋め込みは、BERTTransformers といったモデル、または OpenAI のようなサービスを使って生成できます。

  • 全文検索(全文検索): 商品のテキスト説明に対して、疎ベクトルを用いたキーワードマッチでクエリを実行します。この目的には、BM25 アルゴリズムや、BGE-M3SPLADE といった疎埋め込みモデルを利用できます。

  • マルチモーダル画像検索(Multimodal Image Search): テキストクエリを用いて画像に対して密ベクトルで検索を実行します。画像埋め込みは、CLIP のようなモデルを使って生成できます。

本ガイドでは、上記の検索手法を組み合わせたマルチモーダルハイブリッド検索の例を紹介します。具体的には、商品の生のテキスト説明と画像埋め込みを用いて、マルチベクトルデータの保存方法と、リランキング戦略を用いたハイブリッド検索の実行方法を解説します。

複数のベクトルフィールドを持つコレクションの作成

コレクションの作成プロセスには、以下の3つの重要なステップがあります:コレクションスキーマの定義、インデックスパラメータの設定、そしてコレクションの作成です。

スキーマの定義

マルチベクトルハイブリッド検索を行うには、コレクションスキーマ内に複数のベクトルフィールドを定義する必要があります。コレクションに定義可能なベクトルフィールド数の制限については、Zilliz Cloud 制限s を参照してください。

この例では、スキーマに以下のフィールドを含めます。

  • id: テキストIDを格納する主キーとして使用します。データ型は INT64 です。

  • text: テキストコンテンツを格納するために使用します。データ型は最大長1000バイトの VARCHAR です。enable_analyzer オプションを True に設定することで、全文検索を可能にします。

  • text_dense: テキストの密ベクトルを格納するために使用します。データ型はベクトル次元768の FLOAT_VECTOR です。

  • text_sparse: テキストの疎ベクトルを格納するために使用します。データ型は SPARSE_FLOAT_VECTOR です。

  • image_dense: 商品画像の密ベクトルを格納するために使用します。データ型はベクトル次元512の FLOAT_VETOR です。

ここでは、テキストフィールドに対して組み込みの BM25 アルゴリズムを用いて全文検索を実行するため、Milvus の Function をスキーマに追加する必要があります。詳細については、全文検索(Full Text Search) を参照してください。

from pymilvus import (
MilvusClient, DataType, Function, FunctionType
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# Init schema with auto_id disabled
schema = client.create_schema(auto_id=False)

# Add fields to schema
schema.add_field(field_name="id", datatype=DataType.INT64, is_primary=True, description="product id")
schema.add_field(field_name="text", datatype=DataType.VARCHAR, max_length=1000, enable_analyzer=True, description="raw text of product description")
schema.add_field(field_name="text_dense", datatype=DataType.FLOAT_VECTOR, dim=768, description="text dense embedding")
schema.add_field(field_name="text_sparse", datatype=DataType.SPARSE_FLOAT_VECTOR, description="text sparse embedding auto-generated by the built-in BM25 function")
schema.add_field(field_name="image_dense", datatype=DataType.FLOAT_VECTOR, dim=512, description="image dense embedding")

# Add function to schema
bm25_function = Function(
name="text_bm25_emb",
input_field_names=["text"],
output_field_names=["text_sparse"],
function_type=FunctionType.BM25,
)
schema.add_function(bm25_function)

インデックスの作成

コレクションスキーマを定義した後、次のステップはベクトルインデックスを設定し、類似性メトリックを指定することです。以下の例では:

  • text_dense_index: テキスト密ベクトルフィールドに対して、AUTOINDEXタイプでIPメトリックタイプのインデックスを作成しています。

  • text_sparse_index: テキスト疎ベクトルフィールドに対して、SPARSE_INVERTED_INDEXタイプでBM25メトリックタイプのインデックスを使用しています。

  • image_dense_index: 画像密ベクトルフィールドに対して、AUTOINDEXタイプでIPメトリックタイプのインデックスを作成しています。

# Prepare index parameters
index_params = client.prepare_index_params()

# Add indexes
index_params.add_index(
field_name="text_dense",
index_name="text_dense_index",
index_type="AUTOINDEX",
metric_type="IP"
)

index_params.add_index(
field_name="text_sparse",
index_name="text_sparse_index",
index_type="AUTOINDEX",
metric_type="BM25"
)

index_params.add_index(
field_name="image_dense",
index_name="image_dense_index",
index_type="AUTOINDEX",
metric_type="IP"
)

コレクションの作成

前の2つの手順で設定したコレクションスキーマとインデックスを使用して、demo という名前のコレクションを作成します。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

Insert data

このセクションでは、前述のスキーマに基づいてデータを my_collection コレクションに挿入します。挿入時には、自動生成される値を持つフィールドを除き、すべてのフィールドに正しい形式でデータを提供する必要があります。この例では、以下のようになります:

  • id: 商品IDを表す整数

  • text: 商品説明を含む文字列

  • text_dense: テキスト説明のdense embedding(密ベクトル)を表す768個の浮動小数点値のリスト

  • image_dense: 商品画像のdense embeddingを表す512個の浮動小数点値のリスト

各フィールドのdense embeddingを生成するために、同じモデルまたは異なるモデルを使用できます。この例では、2つのdense embeddingが異なる次元を持っているため、異なるモデルによって生成されたことを示唆しています。後述の検索を定義する際には、対応するモデルを使用して適切なクエリembeddingを生成してください。

この例では、テキストフィールドからスパース埋め込み(疎ベクトル)を生成するために組み込みのBM25関数を使用しているため、疎ベクトルを手動で提供する必要はありません。ただし、BM25を使用しない場合は、事前にスパース埋め込みを計算し、自分で提供する必要があります。

import random

# Generate example vectors
def generate_dense_vector(dim):
return [random.random() for _ in range(dim)]

data=[
{
"id": 0,
"text": "Red cotton t-shirt with round neck",
"text_dense": generate_dense_vector(768),
"image_dense": generate_dense_vector(512)
},
{
"id": 1,
"text": "Wireless noise-cancelling over-ear headphones",
"text_dense": generate_dense_vector(768),
"image_dense": generate_dense_vector(512)
},
{
"id": 2,
"text": "Stainless steel water bottle, 500ml",
"text_dense": generate_dense_vector(768),
"image_dense": generate_dense_vector(512)
}
]

res = client.insert(
collection_name="my_collection",
data=data
)

ステップ 1: 複数の AnnSearchRequest インスタンスを作成する

ハイブリッド検索は、hybrid_search() 関数内で複数の AnnSearchRequest を作成することで実装されます。各 AnnSearchRequest は特定のベクトルフィールドに対する基本的な ANN 検索リクエストを表します。したがって、ハイブリッド検索を実行する前に、各ベクトルフィールドに対して AnnSearchRequest を作成する必要があります。

さらに、AnnSearchRequestexpr パラメータを設定することで、ハイブリッド検索のフィルタリング条件を指定できます。詳細については、Filtered Search および Filtering Explained を参照してください。

📘Notes

ハイブリッド検索では、各 AnnSearchRequest は1つのクエリデータのみをサポートします。

さまざまな検索ベクトルフィールドの機能を示すために、サンプルクエリを使用して3つの AnnSearchRequest 検索リクエストを構築します。このプロセスには、事前に計算済みの密ベクトルも使用します。これらの検索リクエストは以下のベクトルフィールドを対象とします。

  • text_dense: セマンティックテキスト検索用。キーワードの完全一致ではなく、文脈に基づいた意味理解による検索・取得を可能にします。

  • text_sparse: 全文検索またはキーワード一致用。テキスト内の正確な単語またはフレーズ一致に焦点を当てます。

  • image_dense: マルチモーダルなテキストから画像への検索用。クエリのセマンティックな内容に基づいて関連する商品画像を取得します。

from pymilvus import AnnSearchRequest

query_text = "white headphones, quiet and comfortable"
query_dense_vector = generate_dense_vector(768)
query_multimodal_vector = generate_dense_vector(512)

# text semantic search (dense)
search_param_1 = {
"data": [query_dense_vector],
"anns_field": "text_dense",
"limit": 2
}
request_1 = AnnSearchRequest(**search_param_1)

# full-text search (sparse)
search_param_2 = {
"data": [query_text],
"anns_field": "text_sparse",
"limit": 2
}
request_2 = AnnSearchRequest(**search_param_2)

# text-to-image search (multimodal)
search_param_3 = {
"data": [query_multimodal_vector],
"anns_field": "image_dense",
"limit": 2
}
request_3 = AnnSearchRequest(**search_param_3)

reqs = [request_1, request_2, request_3]

パラメータ limit が 2 に設定されているため、各 AnnSearchRequest は 2 件の検索結果を返します。この例では 3 つの AnnSearchRequest インスタンスが作成されるため、合計で 6 件の検索結果が得られます。

ステップ 2: リランキング戦略の設定

ANN 検索結果のセットを統合してリランキングするには、適切なリランキング戦略を選択することが重要です。Zilliz Cloud では複数のリランキング戦略を提供しています。これらのリランキング機構の詳細については、Weighted Ranker または RRF Ranker を参照してください。

この例では、特定の検索クエリを特に重視しないため、RRFRanker 戦略を使用します。

ranker = Function(
name="rrf",
input_field_names=[], # Must be an empty list
function_type=FunctionType.RERANK,
params={
"reranker": "rrf",
"k": 100 # Optional
}
)

ハイブリッド検索を開始する前に、コレクションがロードされていることを確認してください。コレクション内のベクトルフィールドにインデックスが設定されていない場合や、メモリにロードされていない場合は、ハイブリッド検索メソッドの実行時にエラーが発生します。

res = client.hybrid_search(
collection_name="my_collection",
reqs=reqs,
ranker=ranker,
limit=2
)
for hits in res:
print("TopK results:")
for hit in hits:
print(hit)

以下が出力です:

["['id: 1, distance: 0.006047376897186041, entity: {}', 'id: 2, distance: 0.006422005593776703, entity: {}']"]

ハイブリッド検索に limit=2 パラメータを指定すると、Zilliz Cloud は3つの検索から得られた6件の結果を再ランキングし、最終的に類似度が最も高い上位2件のみを返します。