メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

マルチベクトルハイブリッド検索

多くのアプリケーションでは、タイトルや説明のような豊富な情報セットや、テキスト、画像、音声などの複数のモダリティでオブジェクトを検索できます。たとえば、テキストと画像の両方を含むツイートでは、テキストまたは画像が検索クエリのセマンティクスに一致している場合に検索対象となります。ハイブリッド検索は、これらの多様なフィールドにわたる検索を組み合わせることで検索体験を向上させます。Zilliz Cloudは、複数のベクトルフィールドに対する検索を可能にし、複数の近似最近傍(ANN)検索を同時に実行することをサポートしています。マルチベクトルハイブリッド検索は、テキストと画像の両方を検索したい場合、同じオブジェクトを説明する複数のテキストフィールドで検索したい場合、または検索品質を向上させるために密ベクトルとスパースベクトルを組み合わせたい場合に特に有効です。

Qx7UwgI6jhrku8bAxZqcYxZMnSe

マルチベクトルハイブリッド検索では、さまざまな検索方法や複数のモダリティからの埋め込みを統合します。

  • スパース-密ベクトル検索: 密ベクトルはセマンティックな関係性を捉えるのに優れている一方で、スパースベクトルはキーワード一致に非常に効果的です。ハイブリッド検索はこれらのアプローチを組み合わせて、広範な概念的理解と正確な用語の関連性の両方を提供し、検索結果を改善します。各方法の強みを活かすことで、ハイブリッド検索は個別アプローチの限界を克服し、複雑なクエリに優れた性能を提供します。セマンティック検索と全文検索を組み合わせたハイブリッド検索の詳細なガイドはこちらで参照できます。

  • マルチモーダルベクトル検索: マルチモーダルベクトル検索は、テキスト、画像、音声など各種データ型にわたる検索を可能にする強力な技術です。このアプローチの主な利点は、異なるモダリティをシームレスで統合された検索体験に統合できる点にあります。たとえば、商品検索では、テキストと画像の両方で記述された商品を探すテキストクエリをユーザーが入力できます。ハイブリッド検索方法を通してこれらのモダリティを組み合わせることで、検索精度を高めたり検索結果を豊かにしたりできます。

各製品がテキスト説明と画像を含んでいる現実の使用例を考えてみましょう。利用可能なデータに基づいて、3種類の検索を実施できます。

  • セマンティックテキスト検索: これは、密ベクトルを使用して製品のテキスト説明をクエリするものです。BERTTransformersなどのモデルやOpenAIなどのサービスを使用してテキスト埋め込みを生成できます。

  • 全文検索: ここでは、スパースベクトルを使用したキーワード一致で製品のテキスト説明をクエリします。BM25BGE-M3SPLADEなどのスパース埋め込みモデルをこの目的に使用できます。

  • マルチモーダル画像検索: この方法では、密ベクトルを使用してテキストクエリで画像をクエリします。CLIPなどのモデルを使用して画像埋め込みを生成できます。

このガイドでは、上記の検索方法を組み合わせたマルチモーダルハイブリッド検索の例を紹介します。製品の生テキスト説明と画像埋め込みを前提として、マルチベクトルデータの保存方法とリランキング戦略を使ったハイブリッド検索の実行方法を示します。

複数のベクトルフィールドを持つコレクションを作成する

コレクション作成のプロセスには、コレクションスキーマの定義、インデックスパラメータの設定、コレクションの作成という3つの主要な手順があります。

スキーマの定義

マルチベクトルハイブリッド検索では、コレクションスキーマ内に複数のベクトルフィールドを定義する必要があります。コレクションで許可されるベクトルフィールド数の制限については、Zilliz Cloudの制限事項を参照してください。

この例では、スキーマに以下のフィールドを組み込みます。

  • id: テキストIDを格納するためのプライマリキーとして機能します。このフィールドのデータ型はINT64です。

  • text: テキストコンテンツを格納するために使用されます。このフィールドのデータ型はVARCHARで、最大長は1000バイトです。enable_analyzerオプションはTrueに設定して全文検索を可能にします。

  • text_dense: テキストの密ベクトルを格納するために使用されます。このフィールドのデータ型はFLOAT_VECTORで、ベクトル次元は768です。

  • text_sparse: テキストのスパースベクトルを格納するために使用されます。このフィールドのデータ型はSPARSE_FLOAT_VECTORです。

  • image_dense: 製品画像の密ベクトルを格納するために使用されます。このフィールドのデータ型はFLOAT_VETORで、ベクトル次元は512です。

テキストフィールドで全文検索を実行するために組み込みBM25アルゴリズムを使用するので、Milvus Functionをスキーマに追加する必要があります。詳細については、全文検索を参照してください。

from pymilvus import (
MilvusClient, DataType, Function, FunctionType
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# auto_idを無効にしてスキーマを初期化
schema = client.create_schema(auto_id=False)

# スキーマにフィールドを追加
schema.add_field(field_name="id", datatype=DataType.INT64, is_primary=True, description="product id")
schema.add_field(field_name="text", datatype=DataType.VARCHAR, max_length=1000, enable_analyzer=True, description="raw text of product description")
schema.add_field(field_name="text_dense", datatype=DataType.FLOAT_VECTOR, dim=768, description="text dense embedding")
schema.add_field(field_name="text_sparse", datatype=DataType.SPARSE_FLOAT_VECTOR, description="text sparse embedding auto-generated by the built-in BM25 function")
schema.add_field(field_name="image_dense", datatype=DataType.FLOAT_VECTOR, dim=512, description="image dense embedding")

# スキーマに関数を追加
bm25_function = Function(
name="text_bm25_emb",
input_field_names=["text"],
output_field_names=["text_sparse"],
function_type=FunctionType.BM25,
)
schema.add_function(bm25_function)

インデックスの作成

コレクションスキーマを定義した後、次のステップはベクトルインデックスを設定し、類似性メトリックを指定することです。以下の例では:

  • text_dense_index: テキストの密ベクトルフィールド用に、IPメトリックタイプを持つAUTOINDEXタイプのインデックスを作成します。

  • text_sparse_index: テキストのスパースベクトルフィールド用に、BM25メトリックタイプを持つSPARSE_INVERTED_INDEXタイプのインデックスを使用します。

  • image_dense_index: 画像の密ベクトルフィールド用に、IPメトリックタイプを持つAUTOINDEXタイプのインデックスを作成します。

# インデックスパラメータを準備
index_params = client.prepare_index_params()

# インデックスを追加
index_params.add_index(
field_name="text_dense",
index_name="text_dense_index",
index_type="AUTOINDEX",
metric_type="IP"
)

index_params.add_index(
field_name="text_sparse",
index_name="text_sparse_index",
index_type="AUTOINDEX",
metric_type="BM25"
)

index_params.add_index(
field_name="image_dense",
index_name="image_dense_index",
index_type="AUTOINDEX",
metric_type="IP"
)

コレクションの作成

前の2つの手順で設定したコレクションスキーマとインデックスを使用して、demoという名前のコレクションを作成します。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

このセクションでは、先ほど定義したスキーマに基づいてmy_collectionコレクションにデータを挿入します。挿入時には、自動生成される値を持つフィールドを除き、すべてのフィールドに正しい形式でデータを提供する必要があります。この例では:

  • id: 製品IDを表す整数

  • text: 製品説明を含む文字列

  • text_dense: テキスト説明の密埋め込みを表す768個の浮動小数点値のリスト

  • image_dense: 製品画像の密埋め込みを表す512個の浮動小数点値のリスト

各フィールドの密埋め込みを生成するために同じか異なるモデルを使用できます。この例では、2つの密埋め込みが異なる次元を持っているため、異なるモデルによって生成されたことを示しています。後で各検索を定義する際は、対応するモデルを使用して適切なクエリ埋め込みを生成してください。

この例では、テキストフィールドからスパース埋め込みを生成するために組み込みBM25関数を使用しているため、スパースベクトルを手動で提供する必要はありません。ただし、BM25を使用しない場合は、事前に計算してスパース埋め込みを自分で提供する必要があります。

import random

# 例のベクトルを生成
def generate_dense_vector(dim):
return [random.random() for _ in range(dim)]

data=[
{
"id": 0,
"text": "丸首の赤いコットンTシャツ",
"text_dense": generate_dense_vector(768),
"image_dense": generate_dense_vector(512)
},
{
"id": 1,
"text": "ワイヤレスノイズキャンセリングオーバーイヤーヘッドフォン",
"text_dense": generate_dense_vector(768),
"image_dense": generate_dense_vector(512)
},
{
"id": 2,
"text": "ステンレス製水筒、500ml",
"text_dense": generate_dense_vector(768),
"image_dense": generate_dense_vector(512)
}
]

res = client.insert(
collection_name="my_collection",
data=data
)

ステップ1: 複数のAnnSearchRequestインスタンスを作成する

ハイブリッド検索は、hybrid_search()関数で複数のAnnSearchRequestを作成することで実装されます。各AnnSearchRequestは、特定のベクトルフィールドに対する基本的なANN検索リクエストを表します。したがって、ハイブリッド検索を実行する前に、各ベクトルフィールドに対してAnnSearchRequestを作成する必要があります。

さらに、AnnSearchRequestexprパラメータを設定することで、ハイブリッド検索のフィルター条件を設定できます。詳細は、フィルター検索およびフィルターの説明を参照してください。

📘注釈

ハイブリッド検索では、各AnnSearchRequestは1つのクエリデータのみをサポートします。

さまざまな検索ベクトルフィールドの機能を示すために、サンプルクエリを使用して3つのAnnSearchRequest検索リクエストを作成します。このプロセスでは、事前に計算された密ベクトルを使用します。検索リクエストは、以下のベクトルフィールドを対象とします。

  • text_denseはセマンティックテキスト検索用で、直接のキーワード一致ではなく意味に基づいた文脈的理解と検索を可能にします。

  • text_sparseは全文検索またはキーワード一致用で、テキスト内の正確な単語または語句一致に焦点を当てます。

  • image_denseはマルチモーダルテキスト-画像検索用で、クエリのセマンティックコンテンツに基づいて関連する製品画像を検索します。

from pymilvus import AnnSearchRequest

query_text = "白いヘッドフォン、静かで快適"
query_dense_vector = generate_dense_vector(768)
query_multimodal_vector = generate_dense_vector(512)

# テキストセマンティック検索(密)
search_param_1 = {
"data": [query_dense_vector],
"anns_field": "text_dense",
"param": {"nprobe": 10},
"limit": 2
}
request_1 = AnnSearchRequest(**search_param_1)

# 全文検索(スパース)
search_param_2 = {
"data": [query_text],
"anns_field": "text_sparse",
"param": {"drop_ratio_search": 0.2},
"limit": 2
}
request_2 = AnnSearchRequest(**search_param_2)

# テキストから画像検索(マルチモーダル)
search_param_3 = {
"data": [query_multimodal_vector],
"anns_field": "image_dense",
"param": {"nprobe": 10},
"limit": 2
}
request_3 = AnnSearchRequest(**search_param_3)

reqs = [request_1, request_2, request_3]

パラメータlimitが2に設定されているため、各AnnSearchRequestは2つの検索結果を返します。この例では、3つのAnnSearchRequestインスタンスが作成されており、合計で6つの検索結果が得られます。

ステップ2: リランキング戦略を設定する

ANN検索結果セットを統合・リランキングするには、適切なリランキング戦略を選択することが不可欠です。Zilliz Cloudは複数のリランキング戦略を提供しています。これらのリランキングメカニズムの詳細については、重み付きランカーまたはRRFランカーを参照してください。

この例では、特定の検索クエリに特に重みを置くことはないため、RRFRanker戦略を使用します。

ranker = Function(
name="rrf",
input_field_names=[], # 必ず空のリスト
function_type=FunctionType.RERANK,
params={
"reranker": "rrf",
"k": 100 # オプション
}
)

ハイブリッド検索を開始する前に、コレクションがロードされていることを確認してください。コレクション内のベクトルフィールドにインデックスがない場合やメモリにロードされていない場合、ハイブリッド検索メソッドを実行するとエラーが発生します。

res = client.hybrid_search(
collection_name="my_collection",
reqs=reqs,
ranker=ranker,
limit=2
)
for hits in res:
print("TopK results:")
for hit in hits:
print(hit)

以下は出力結果です:

["['id: 1, distance: 0.006047376897186041, entity: {}', 'id: 2, distance: 0.006422005593776703, entity: {}']"]

ハイブリッド検索のlimit=2パラメータを指定することで、Zilliz Cloudは3つの検索から得られた6つの結果をリランキングします。最終的に、最も類似した上位2つの結果のみが返されます。