メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

密ベクトル

密ベクトルは、機械学習およびデータ分析で広く使用されている数値データ表現です。非ゼロ要素が大部分またはすべて含まれる実数配列で構成されています。スパースベクトルと比較して、密ベクトルは同じ次元レベルでより多くの情報を含み、各次元が意味のある値を持っているため、複雑なパターンや関係性を効果的に捉えることができます。この表現により、高次元空間でのデータの分析および処理が容易になります。密ベクトルは通常、数十から数百、または数千の固定次元数を持ちます。これは特定のアプリケーションと要件によって異なります。

密ベクトルは主に、データのセマンティクスを理解する必要があるようなシナリオで使用されます。例えば、セマンティック検索やレコメンドシステムなどがあります。セマンティック検索では、密ベクトルはクエリとドキュメントの間の基盤となる接続を捉え、検索結果の関連性を向上させるのに役立ちます。レコメンドシステムでは、ユーザーとアイテムの類似性を特定し、よりパーソナライズされた提案を提供するのに役立ちます。

概要

密ベクトルは通常、固定長の浮動小数点数配列として表され、[0.2, 0.7, 0.1, 0.8, 0.3, ..., 0.5]のような形式になります。これらのベクトルの次元数は通常、数百から数千の範囲で、128、256、768、1024などがあります。各次元はオブジェクトの特定のセマンティック特徴を捉え、類似性計算を通じてさまざまなシナリオに適用できます。

QOgMwbrhLhvvtbbk5TxcarhEn8i

上図は、2D空間における密ベクトルの表現を示しています。実際の応用では密ベクトルははるかに高次元であることがありますが、この2Dの図はいくつかの重要な概念を効果的に伝えることができます:

  • 多次元表現: 各点は概念オブジェクト(Milvusベクトルデータベース検索システムなど)を表し、その位置は各次元の値によって決まります。

  • セマンティック関係: 点間の距離は概念間のセマンティック類似性を反映しています。近い点はよりセマンティックに近い概念を示します。

  • クラスタリング効果: 関連する概念(Milvusベクトルデータベース、および検索システムなど)は空間内で互いに近接して位置し、セマンティッククラスタを形成します。

以下は、テキスト"Milvus is an efficient vector database"を表す実際の密ベクトルの例です:

[
-0.013052909,
0.020387933,
-0.007869,
-0.11111383,
-0.030188112,
-0.0053388323,
0.0010654867,
0.072027855,
// ... さらに多くの次元
]

密ベクトルは、画像用のCNNモデル(ResNetVGGなど)やテキスト用の言語モデル(BERTWord2Vecなど)のようなさまざまな埋め込みモデルを使用して生成できます。これらのモデルは生データを高次元空間の点に変換し、データのセマンティック特徴を捉えます。さらに、Zilliz Cloudは密ベクトルの生成と処理を支援する便利な方法を提供しており、詳細は埋め込みを参照してください。

データがベクトル化されると、Zilliz Cloudクラスターに保存され、管理およびベクトル検索に使用できます。以下の図は基本的なプロセスを示しています。

No8KwR6wPhTIP6bKEqGcbBDWngc

📘注釈

密ベクトルに加えて、Zilliz Cloudはスパースベクトルとバイナリベクトルもサポートしています。スパースベクトルは、キーワード検索や用語一致など、特定の用語に基づく正確な一致に適しており、バイナリベクトルは画像パターンマッチングや特定のハッシングアプリケーションなど、バイナリ化されたデータを効率的に処理するために一般的に使用されます。詳細については、バイナリベクトルおよびスパースベクトルを参照してください。

密ベクトルの使用

ベクトルフィールドの追加

Zilliz Cloudクラスターで密ベクトルを使用するには、まずコレクションを作成する際に密ベクトルを保存するためのベクトルフィールドを定義します。このプロセスには以下が含まれます:

  1. datatypeをサポートされている密ベクトルデータ型に設定します。サポートされている密ベクトルデータ型については、データ型を参照してください。

  2. dimパラメータを使用して密ベクトルの次元を指定します。

以下の例では、密ベクトルを保存するためのdense_vectorという名前のベクトルフィールドを追加します。フィールドのデータ型はFLOAT_VECTORで、次元は4です。

from pymilvus import MilvusClient, DataType

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

schema = client.create_schema(
auto_id=True,
enable_dynamic_fields=True,
)

schema.add_field(field_name="pk", datatype=DataType.VARCHAR, is_primary=True, max_length=100)
schema.add_field(field_name="dense_vector", datatype=DataType.FLOAT_VECTOR, dim=4)

密ベクトルフィールドでサポートされているデータ型:

データ型

説明

FLOAT_VECTOR

32ビット浮動小数点数を格納し、科学計算および機械学習における実数表現に一般的に使用されます。類似ベクトルの区別が必要なような高精度が求められるシナリオに最適です。

FLOAT16_VECTOR

16ビット半精度浮動小数点数を格納し、ディープラーニングおよびGPU計算に使用されます。精度がそれほど重要ではないシナリオでストレージ容量を節約できます。例えば、レコメンドシステムの低精度リコールフェーズなどです。

BFLOAT16_VECTOR

16ビットBrain Floating Point (bfloat16) 数値を格納し、Float32と同じ指数範囲を提供しますが精度は低くなります。大規模な画像検索など、大量のベクトルを迅速に処理する必要があるシナリオに適しています。

INT8_VECTOR

各次元の個々の要素が8ビット整数(int8)であるベクトルを格納し、各要素の範囲は-128から127です。量子化されたディープラーニングモデル(例:ResNet、EfficientNet)用に設計されたINT8_VECTORは、モデルサイズを削減し、精度をほとんど低下させることなく推論を高速化します。

ベクトルフィールドのインデックスパラメータの設定

セマンティック検索を高速化するために、ベクトルフィールドに対してインデックスを作成する必要があります。インデックス作成は、大規模ベクトルデータの検索効率を大幅に向上させます。

index_params = client.prepare_index_params()

index_params.add_index(
field_name="dense_vector",
index_name="dense_vector_index",
index_type="AUTOINDEX",
metric_type="IP"
)

上記の例では、dense_vectorフィールドに対してdense_vector_indexという名前のインデックスがAUTOINDEXインデックスタイプを使用して作成されています。metric_typeIPに設定されており、内積が距離メトリックとして使用されることを示しています。

Zilliz Cloudは他のメトリックタイプもサポートしています。詳細については、メトリックタイプを参照してください。

コレクションの作成

密ベクトルとインデックスパラメータの設定が完了すると、密ベクトルを含むコレクションを作成できます。以下の例では、create_collectionメソッドを使用してmy_collectionという名前のコレクションを作成します。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

コレクションを作成した後、密ベクトルを含むデータを追加するためにinsertメソッドを使用します。挿入する密ベクトルの次元数が、密ベクトルフィールドを追加する際に定義したdim値と一致していることを確認してください。

data = [
{"dense_vector": [0.1, 0.2, 0.3, 0.7]},
{"dense_vector": [0.2, 0.3, 0.4, 0.8]},
]

client.insert(
collection_name="my_collection",
data=data
)

密ベクトルに基づくセマンティック検索は、Zilliz Cloudクラスターの核となる機能の1つであり、ベクトル間の距離に基づいてクエリベクトルに最も類似したデータを迅速に見つけることができます。類似性検索を実行するには、クエリベクトルと検索パラメータを準備し、searchメソッドを呼び出します。

search_params = {
"params": {"nprobe": 10}
}

query_vector = [0.1, 0.2, 0.3, 0.7]

res = client.search(
collection_name="my_collection",
data=[query_vector],
anns_field="dense_vector",
search_params=search_params,
limit=5,
output_fields=["pk"]
)

print(res)

# 出力
# data: ["[{'id': '453718927992172271', 'distance': 0.7599999904632568, 'entity': {'pk': '453718927992172271'}}, {'id': '453718927992172270', 'distance': 0.6299999952316284, 'entity': {'pk': '453718927992172270'}}]"]

類似性検索パラメータの詳細については、基本ANN検索を参照してください.