メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

スパースベクトル

スパースベクトルは、情報検索および自然言語処理における表面レベルの用語一致を捉える上で重要な方法です。デンスベクトルがセマンティック理解に優れている一方で、スパースベクトルは特に特殊な用語やテキスト識別子を検索する場合に、より予測可能な一致結果を提供します。

概要

スパースベクトルは、ほとんどの要素がゼロであり、少数の次元のみが非ゼロ値を持つ特殊な高次元ベクトルです。以下の図に示すように、デンスベクトルは通常、各位置に値を持つ連続した配列として表されます(例:[0.3, 0.8, 0.2, 0.3, 0.1])。一方、スパースベクトルは非ゼロ要素とその次元インデックスのみを保存し、多くの場合、{インデックス: 値} のようなキー・バリューペアとして表現されます(例:[{2: 0.2}, ..., {9997: 0.5}, {9999: 0.7}])。

VPhswBhHmhJrh3byaVnc3onYnPc

トークン化とスコアリングにより、文書は各次元が語彙内の特定の単語に対応するバッグ・オブ・ワードベクトルとして表現されます。文書中に存在する単語のみが非ゼロ値を持ち、スパースベクトル表現が作成されます。スパースベクトルは以下の2つのアプローチで生成できます:

  • 従来の統計技術、たとえば TF-IDF (Term Frequency-Inverse Document Frequency)や BM25 (Best Matching 25)は、コーパス全体における単語の頻度と重要性に基づいて重みを割り当てます。これらの手法は、各次元(トークンを表す)のスコアとして単純な統計を計算します。Zilliz Cloudは、BM25法を用いたビルトインの全文検索を提供しており、テキストをスパースベクトルに自動的に変換するため、手動での前処理は不要です。このアプローチは、精度と完全一致が重要なキーワードベースの検索に最適です。詳細については、全文検索を参照してください。

  • ニューラルスパース埋め込みモデルは、大規模なデータセットで学習することによりスパース表現を生成する学習済みの方法です。これらは一般的にTransformerアーキテクチャを持つディープラーニングモデルであり、セマンティックコンテキストに基づいて用語を拡張および重み付けできます。Zilliz Cloudは、SPLADE のようなモデルから外部生成されたスパース埋め込みもサポートしています。詳細については、埋め込みを参照してください。

スパースベクトルと元のテキストは、Zilliz Cloudに保存されて効率的な検索が可能になります。以下の図は、全体的なプロセスを概説しています。

A7FvwnB5bhpBlKbgrzYcQijbnxg

📘注釈

スパースベクトルに加えて、Zilliz Cloudはデンスベクトルとバイナリベクトルもサポートしています。デンスベクトルは深いセマンティック関係を捉えるのに最適であり、バイナリベクトルは類似性の高速比較やコンテンツの重複排除などのシナリオで優れています。詳しくは、デンスベクトルおよびバイナリベクトルを参照してください。

データ形式

以下のセクションでは、SPLADEのような学習済みスパース埋め込みモデルからベクトルを保存する方法を説明します。デンスベクトルベースのセマンティック検索を補完するものをお探しの場合は、シンプルさを重視してSPLADEよりもBM25を用いた全文検索を推奨します。品質評価を実施してSPLADEを使用することを選択した場合、SPLADEでスパースベクトルを生成する方法については埋め込みを参照してください。

Zilliz Cloudは以下の形式でのスパースベクトル入力をサポートしています:

  • 辞書のリスト( {dimension_index: value, ...} の形式)

    # 辞書を使用して各スパースベクトルを表現
    sparse_vectors = [{27: 0.5, 100: 0.3, 5369: 0.6} , {100: 0.1, 3: 0.8}]
  • スパース行列( scipy.sparse クラスの使用)

    from scipy.sparse import csr_matrix

    # 最初のベクトル:インデックス[27, 100, 5369] と値[0.5, 0.3, 0.6]
    # 2番目のベクトル:インデックス[3, 100] と値[0.8, 0.1]
    indices = [[27, 100, 5369], [3, 100]]
    values = [[0.5, 0.3, 0.6], [0.8, 0.1]]
    sparse_vectors = [csr_matrix((vals, ([0]*len(idx), idx)), shape=(1, 5369+1)) for idx, vals in zip(indices, values)]
  • タプルイテラブルのリスト(例: [(dimension_index, value)]

    # イテラブル(例:タプル)のリストを使用して各スパースベクトルを表現
    sparse_vector = [
    [(27, 0.5), (100, 0.3), (5369, 0.6)],
    [(100, 0.1), (3, 0.8)]
    ]

コレクションスキーマの定義

コレクションを作成する前に、フィールドを定義し、オプションでテキストフィールドを対応するスパースベクトル表現に変換する関数を指定する必要があります。

フィールドの追加

Zilliz Cloudクラスターでスパースベクトルを使用するには、以下のフィールドを含むスキーマでコレクションを作成する必要があります:

  • VARCHARフィールドから自動生成されるか、入力データに直接提供されるスパースベクトルを保存するためのSPARSE_FLOAT_VECTORフィールド。

  • 通常、スパースベクトルが表す元のテキストもコレクションに保存されます。これはVARCHARフィールドを使用して保存できます。

from pymilvus import MilvusClient, DataType

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

schema = client.create_schema(
auto_id=True,
enable_dynamic_fields=True,
)

schema.add_field(field_name="pk", datatype=DataType.VARCHAR, is_primary=True, max_length=100)
schema.add_field(field_name="sparse_vector", datatype=DataType.SPARSE_FLOAT_VECTOR)
schema.add_field(field_name="text", datatype=DataType.VARCHAR, max_length=65535, enable_analyzer=True)

この例では、3つのフィールドが追加されています:

  • pk:主キーを保存するためのフィールドで、VARCHARデータ型を使用し、最大100バイトの長さを持つ自動生成されます。

  • sparse_vector:スパースベクトルを保存するためのフィールドで、SPARSE_FLOAT_VECTORデータ型を使用します。

  • text:テキスト文字列を保存するためのフィールドで、VARCHARデータ型を使用し、最大65535バイトの長さを持ちます。

📘注釈

データ挿入時に指定されたテキストフィールドからスパースベクトル埋め込みをZilliz Cloudが生成するには、関数を使用する追加のステップが必要です。詳細については、全文検索を参照してください。

インデックスパラメータの設定

スパースベクトル用のインデックス作成プロセスは、デンスベクトル用のプロセスと似ていますが、指定されるインデックスタイプ(index_type)、距離メトリック(metric_type)、インデックスパラメータ(params)が異なります。

index_params = client.prepare_index_params()

index_params.add_index(
field_name="sparse_vector",
index_name="sparse_auto_index",
index_type="AUTOINDEX",
metric_type="IP"
)

この例では、IPをメトリックとしたSPARSE_INVERTED_INDEXインデックスタイプを使用しています。詳細については、以下のリソースを参照してください:

コレクションの作成

スパースベクトルとインデックスの設定が完了すると、スパースベクトルを含むコレクションを作成できます。以下の例では、create_collectionメソッドを使用してmy_collectionという名前のコレクションを作成しています。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

コレクション作成時に定義された全フィールドのデータを提供する必要がありますが、自動生成フィールド(auto_idが有効な主キーなど)は例外です。ビルトインのBM25関数を使用してスパースベクトルを自動生成する場合は、データ挿入時にスパースベクトルフィールドも省略します。

data = [
{
"text": "情報検索は研究分野の一つです。",
"sparse_vector": {1: 0.5, 100: 0.3, 500: 0.8}
},
{
"text": "情報検索は大規模データセットから関連情報を検索することに焦点を当てています。",
"sparse_vector": {10: 0.1, 200: 0.7, 1000: 0.9}
}
]

client.insert(
collection_name="my_collection",
data=data
)

スパースベクトルを使用した類似性検索を実行するには、クエリデータと検索パラメータの両方を準備します。

# 検索パラメータの準備
search_params = {
"params": {"drop_ratio_search": 0.2}, # 0から1の間の有効範囲を持つ調整可能なドロップ比パラメータ
}

# スパースベクトルによるクエリ
query_data = [{1: 0.2, 50: 0.4, 1000: 0.7}]

その後、searchメソッドを使用して類似性検索を実行します:

res = client.search(
collection_name="my_collection",
data=query_data,
limit=3,
output_fields=["pk"],
search_params=search_params,
consistency_level="Strong"
)

print(res)

# 出力
# data: ["[{'id': '453718927992172266', 'distance': 0.6299999952316284, 'entity': {'pk': '453718927992172266'}}, {'id': '453718927992172265', 'distance': 0.10000000149011612, 'entity': {'pk': '453718927992172265'}}]"]

類似性検索パラメータの詳細については、基本ベクトル検索を参照してください。