メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

密ベクトル

密ベクトルは、機械学習やデータ分析で広く使用されている数値データ表現です。これらは実数の配列で構成され、ほとんどまたはすべての要素がゼロ以外です。疎ベクトルと比較して、密ベクトルは同じ次元レベルでより多くの情報を含んでいます。これは、各次元が意味のある値を保持しているためです。この表現は、複雑なパターンと関係を効果的に捉えることができ、高次元空間でのデータの分析と処理を容易にします。密ベクトルは通常、特定のアプリケーションと要件に応じて、数十から数百、あるいは数千の固定された次元数を持っています。

密ベクトルは、セマンティック検索やレコメンデーションシステムなど、データのセマンティクスを理解する必要があるシナリオで主に使用されます。セマンティック検索では、密ベクトルはクエリとドキュメント間の根底にあるつながりを捉え、検索結果の関連性を向上させるのに役立ちます。レコメンデーションシステムでは、ユーザーとアイテム間の類似性を特定し、よりパーソナライズされた提案を提供するのに役立ちます。

概要

密ベクトルは通常、[0.2, 0.7, 0.1, 0.8, 0.3, ..., 0.5] のような固定長の浮動小数点数の配列として表現されます。これらのベクトルの次元数は通常、128、256、768、または1024のように数百から数千に及びます。各次元はオブジェクトの特定のセマンティックな特徴を捉え、類似性計算を通じてさまざまなシナリオに適用できます。

QOgMwbrhLhvvtbbk5TxcarhEn8i

上記の画像は、2D空間における密ベクトルの表現を示しています。実際のアプリケーションにおける密ベクトルは、はるかに高次元であることが多いですが、この2Dの図はいくつかの重要な概念を効果的に伝えています。

  • 多次元表現: 各点は概念的なオブジェクト(Milvusベクトルデータベース検索システムなど)を表し、その位置は次元の値によって決定されます。

  • セマンティックな関係: 点間の距離は、概念間のセマンティックな類似性を反映しています。近い点ほど、セマンティックにより関連性の高い概念を示します。

  • クラスタリング効果: 関連する概念(Milvusベクトルデータベース検索システムなど)は空間内で互いに近くに配置され、セマンティックなクラスターを形成します。

以下は、テキスト"Milvus is an efficient ベクトルデータベース"を表す実際の密ベクトルの例です。

[
-0.013052909,
0.020387933,
-0.007869,
-0.11111383,
-0.030188112,
-0.0053388323,
0.0010654867,
0.072027855,
// ... more dimensions
]

密ベクトルは、画像用のCNNモデル(ResNetVGGなど)や、テキスト用の言語モデル(BERTWord2Vecなど)といった様々な埋め込みモデルを使用して生成できます。これらのモデルは、生データを高次元空間の点に変換し、データの意味的特徴を捉えます。さらに、Zilliz Cloudは、埋め込みで詳述されているように、ユーザーが密ベクトルを生成および処理するのに役立つ便利な方法を提供します。

データがベクトル化されると、Zilliz Cloudクラスターに保存して管理およびベクトル検索を行うことができます。以下の図は、基本的なプロセスを示しています。

No8KwR6wPhTIP6bKEqGcbBDWngc

📘Notes

密ベクトルに加えて、Zilliz Cloudは疎ベクトルとバイナリベクトルもサポートしています。疎ベクトルは、キーワード検索や用語マッチングなど、特定の用語に基づく正確なマッチングに適しています。一方、バイナリベクトルは、画像パターンマッチングや特定のハッシュアプリケーションなど、バイナリ化されたデータを効率的に処理するためによく使用されます。詳細については、バイナリベクトル疎ベクトルを参照してください。

密ベクトルを使用する

ベクトルフィールドを追加する

Zilliz Cloudクラスターで密ベクトルを使用するには、まずコレクションを作成する際に密ベクトルを保存するためのベクトルフィールドを定義します。このプロセスには以下が含まれます。

  1. datatypeをサポートされている密ベクトルデータ型に設定します。サポートされている密ベクトルデータ型については、データ型を参照してください。

  2. dimパラメータを使用して密ベクトルの次元を指定します。

以下の例では、dense_vectorという名前のベクトルフィールドを追加して密ベクトルを保存します。フィールドのデータ型はFLOAT_VECTORで、次元は4です。

from pymilvus import MilvusClient, DataType

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

schema = client.create_schema(
auto_id=True,
enable_dynamic_fields=True,
)

schema.add_field(field_name="pk", datatype=DataType.VARCHAR, is_primary=True, max_length=100)
schema.add_field(field_name="dense_vector", datatype=DataType.FLOAT_VECTOR, dim=4)

高密度ベクトルフィールドでサポートされるデータ型:

データ型

説明

FLOAT_VECTOR

32ビットの浮動小数点数を格納し、科学計算や機械学習で実数を表現するためによく使用されます。類似したベクトルを区別するなど、高い精度が要求されるシナリオに最適です。

FLOAT16_VECTOR

16ビットの半精度浮動小数点数を格納し、ディープラーニングやGPU計算に使用されます。レコメンデーションシステムの低精度リコールフェーズなど、精度がそれほど重要でないシナリオでストレージスペースを節約します。

BFLOAT16_VECTOR

16ビットのBrain Floating Point (bfloat16) 数を格納し、Float32と同じ指数範囲を提供しますが、精度は低下します。大規模な画像検索など、大量のベクトルを迅速に処理する必要があるシナリオに適しています。

INT8_VECTOR

各次元の個々の要素が8ビット整数 (int8) で、各要素が-128から127の範囲のベクトルを格納します。量子化されたディープラーニングモデル (例: ResNet、EfficientNet) 向けに設計されたINT8_VECTORは、モデルサイズを削減し、最小限の精度損失で推論を高速化します。

ベクトルフィールドのインデックスパラメータを設定する

セマンティック検索を高速化するには、ベクトルフィールドにインデックスを作成する必要があります。インデックス作成は、大規模なベクトルデータの検索効率を大幅に向上させることができます。

index_params = client.prepare_index_params()

index_params.add_index(
field_name="dense_vector",
index_name="dense_vector_index",
index_type="AUTOINDEX",
metric_type="IP"
)

上記の例では、dense_vector フィールドに対して AUTOINDEX インデックスタイプを使用して dense_vector_index という名前のインデックスが作成されています。metric_typeIP に設定されており、内積が距離メトリックとして使用されることを示しています。

Zilliz Cloud は他のメトリックタイプをサポートしています。詳細については、メトリックタイプ を参照してください。

コレクションの作成

密なベクトルとインデックスパラメータの設定が完了したら、密なベクトルを含むコレクションを作成できます。以下の例では、create_collection メソッドを使用して my_collection という名前のコレクションを作成しています。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

コレクションを作成したら、insert メソッドを使用して密ベクトルを含むデータを追加します。挿入する密ベクトルの次元が、密ベクトルフィールドを追加する際に定義した dim の値と一致していることを確認してください。

data = [
{"dense_vector": [0.1, 0.2, 0.3, 0.7]},
{"dense_vector": [0.2, 0.3, 0.4, 0.8]},
]

client.insert(
collection_name="my_collection",
data=data
)

密なベクトルに基づくセマンティック検索は、Zilliz Cloudクラスターのコア機能の1つであり、ベクトル間の距離に基づいてクエリベクトルに最も類似したデータを迅速に見つけることができます。類似性検索を実行するには、クエリベクトルと検索パラメータを準備し、searchメソッドを呼び出します。

search_params = {
"params": {"nprobe": 10}
}

query_vector = [0.1, 0.2, 0.3, 0.7]

res = client.search(
collection_name="my_collection",
data=[query_vector],
anns_field="dense_vector",
search_params=search_params,
limit=5,
output_fields=["pk"]
)

print(res)

# Output
# data: ["[{'id': '453718927992172271', 'distance': 0.7599999904632568, 'entity': {'pk': '453718927992172271'}}, {'id': '453718927992172270', 'distance': 0.6299999952316284, 'entity': {'pk': '453718927992172270'}}]"]

類似性検索パラメータの詳細については、基本的なANN検索を参照してください。