メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

Dense Vector

密ベクトル(Dense Vector)は、機械学習やデータ分析で広く使われる数値データの表現形式です。これは実数からなる配列であり、その要素のほとんどまたはすべてが非ゼロ値を持ちます。疎ベクトルと比べて、密ベクトルは同じ次元数においてより多くの情報を含んでおり、各次元が意味のある値を保持しています。この表現形式は複雑なパターンや関係性を効果的に捉えることができ、高次元空間におけるデータの分析や処理を容易にします。密ベクトルの次元数は通常固定されており、具体的な用途や要件に応じて、数十次元から数百、さらには数千次元に及ぶこともあります。

密ベクトルは主に、データのセマンティクス(意味)を理解する必要があるシナリオで使用されます。たとえば、セマンティック検索やレコメンデーションシステムなどが該当します。セマンティック検索では、密ベクトルがクエリとドキュメント間の潜在的な関連性を捉え、検索結果の関連性を向上させます。レコメンデーションシステムでは、ユーザーとアイテム間の類似性を特定し、よりパーソナライズされた提案を可能にします。

概要

密ベクトルは通常、固定長の浮動小数点数の配列として表現され、たとえば [0.2, 0.7, 0.1, 0.8, 0.3, ..., 0.5] のような形式を取ります。これらのベクトルの次元数は一般的に数百から数千(例:128、256、768、1024)の範囲に及びます。各次元はオブジェクトの特定のセマンティック特徴を捉えており、類似度計算を通じてさまざまなシナリオに応用可能です。

QOgMwbrhLhvvtbbk5TxcarhEn8i

上記の画像は、2次元空間における密ベクトルの表現を示しています。実際のアプリケーションで使われる密ベクトルは通常、これよりもはるかに高い次元を持ちますが、この2次元の図は以下の重要な概念を効果的に伝えています。

  • 多次元表現: 各点は概念的なオブジェクト(Milvusベクトルデータベース検索システム など)を表しており、その位置は各次元の値によって決定されます。

  • セマンティックな関係性: 点同士の距離は概念間のセマンティックな類似性を反映しています。近接している点ほど、よりセマンティックに関連性が高いことを示します。

  • クラスタリング効果: 関連する概念(たとえば Milvusベクトルデータベース検索システム)は空間上で互いに近くに配置され、セマンティッククラスタを形成します。

以下は、テキスト "Milvus is an efficient ベクトルデータベース" を表す実際の密ベクトルの例です:

[
-0.013052909,
0.020387933,
-0.007869,
-0.11111383,
-0.030188112,
-0.0053388323,
0.0010654867,
0.072027855,
// ... more dimensions
]

密ベクトルは、さまざまな埋め込みモデル(画像向けのCNNモデル(ResNetVGGなど)やテキスト向けの言語モデル(BERTWord2Vecなど))を用いて生成できます。これらのモデルは生データを高次元空間上の点に変換し、データの意味的特徴を捉えます。さらに、Zilliz Cloudではユーザーが密ベクトルを生成・処理するための便利な方法も提供しており、詳細は「Embeddings」をご参照ください。

データがベクトル化された後は、Zilliz Cloudクラスターに保存して管理およびベクトル検索を行うことができます。以下の図はその基本的なプロセスを示しています。

No8KwR6wPhTIP6bKEqGcbBDWngc

📘Notes

密ベクトルに加えて、Zilliz Cloudは疎ベクトルおよびバイナリベクトルもサポートしています。疎ベクトルはキーワード検索や用語マッチングなどの特定の用語に基づく正確な一致に適しており、一方でバイナリベクトルは画像パターンマッチングや特定のハッシュ用途など、二値化されたデータを効率的に扱う場合に一般的に使用されます。詳細については、「Binary Vector」および「Sparse Vector」をご参照ください。

密ベクトルの使用

ベクトルフィールドの追加

Zilliz Cloudクラスターで密ベクトルを使用するには、コレクション作成時に密ベクトルを格納するためのベクトルフィールドを定義します。この手順には以下が含まれます。

  1. datatype をサポートされている密ベクトルのデータ型に設定します。サポートされている密ベクトルのデータ型については、「データ Types」をご参照ください。

  2. dim パラメータを使用して密ベクトルの次元数を指定します。

以下の例では、dense_vector という名前のベクトルフィールドを追加し、密ベクトルを格納します。このフィールドのデータ型は FLOAT_VECTOR で、次元数は 4 です。

from pymilvus import MilvusClient, DataType

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

schema = client.create_schema(
auto_id=True,
enable_dynamic_fields=True,
)

schema.add_field(field_name="pk", datatype=DataType.VARCHAR, is_primary=True, max_length=100)
schema.add_field(field_name="dense_vector", datatype=DataType.FLOAT_VECTOR, dim=4)

密ベクトルフィールドでサポートされるデータ型:

データ型

説明

FLOAT_VECTOR

32ビット浮動小数点数を格納します。科学計算や機械学習において実数を表現するのに一般的に使用されます。類似したベクトルを区別するなど、高い精度が求められるシナリオに最適です。

FLOAT16_VECTOR

16ビット半精度浮動小数点数を格納します。ディープラーニングやGPU計算で使用されます。精度があまり重要でないシナリオ(例:レコメンデーションシステムの低精度リコールフェーズ)においてストレージ容量を節約できます。

BFLOAT16_VECTOR

16ビットBrain Floating Point (bfloat16) 数値を格納します。Float32と同じ指数範囲を持ちながら精度を犠牲にしています。大規模な画像検索など、大量のベクトルを高速に処理する必要があるシナリオに適しています。

INT8_VECTOR

各次元の要素が8ビット整数(int8)であるベクトルを格納します。各要素の範囲は–128から127です。量子化されたディープラーニングモデル(例:ResNet、EfficientNet)向けに設計されており、INT8_VECTORはモデルサイズを削減し、精度の損失を最小限に抑えながら推論を高速化します。

ベクトルフィールドのインデックスパラメータを設定する

セマンティック検索を高速化するには、ベクトルフィールドに対してインデックスを作成する必要があります。インデックス作成により、大規模なベクトルデータの検索効率を大幅に向上させることができます。

index_params = client.prepare_index_params()

index_params.add_index(
field_name="dense_vector",
index_name="dense_vector_index",
index_type="AUTOINDEX",
metric_type="IP"
)

上記の例では、dense_vector フィールドに対して AUTOINDEX インデックスタイプを使用して dense_vector_index という名前のインデックスが作成されています。metric_typeIP に設定されており、距離メトリックとして内積(内積)が使用されることを示しています。

Zilliz Cloud は他のメトリックタイプもサポートしています。詳細については、メトリックタイプs を参照してください。

Create collection

密ベクトルとインデックスパラメータの設定が完了したら、密ベクトルを含むコレクションを作成できます。以下の例では、create_collection メソッドを使用して my_collection という名前のコレクションを作成しています。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

コレクションを作成した後、insert メソッドを使用して密ベクトルを含むデータを追加します。挿入する密ベクトルの次元数が、密ベクトルフィールドを追加する際に定義した dim 値と一致していることを確認してください。

data = [
{"dense_vector": [0.1, 0.2, 0.3, 0.7]},
{"dense_vector": [0.2, 0.3, 0.4, 0.8]},
]

client.insert(
collection_name="my_collection",
data=data
)

密ベクトルに基づくセマンティック検索は、Zilliz Cloud クラスターの中核機能の一つであり、ベクトル間の距離に基づいてクエリベクトルに最も類似したデータを高速に検索できます。類似性検索を実行するには、クエリベクトルと検索パラメータを準備し、search メソッドを呼び出します。

search_params = {
"params": {"nprobe": 10}
}

query_vector = [0.1, 0.2, 0.3, 0.7]

res = client.search(
collection_name="my_collection",
data=[query_vector],
anns_field="dense_vector",
search_params=search_params,
limit=5,
output_fields=["pk"]
)

print(res)

# Output
# data: ["[{'id': '453718927992172271', 'distance': 0.7599999904632568, 'entity': {'pk': '453718927992172271'}}, {'id': '453718927992172270', 'distance': 0.6299999952316284, 'entity': {'pk': '453718927992172270'}}]"]

類似度検索パラメータの詳細については、基本的なANN検索を参照してください。