メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

デンスベクトル

デンスベクトルは、機械学習およびデータ分析で広く使用される数値データ表現です。ゼロでない要素が大部分またはすべて含まれる実数の配列で構成されています。スパースベクトルと比較して、デンスベクトルは同じ次元レベルでより多くの情報を含み、各次元に意味のある値が保持されています。この表現により、複雑なパターンや関係性を効果的に捉えることができ、高次元空間でのデータの分析と処理が容易になります。デンスベクトルは通常固定された次元数を持ち、数十から数百、数千に及ぶまで、特定のアプリケーションと要件に応じて異なります。

デンスベクトルは主に、データのセマンティクスを理解する必要があるシナリオで使用されます。例えば、セマンティック検索やレコメンドシステムなどが挙げられます。セマンティック検索では、デンスベクトルがクエリとドキュメントの間の根底にある関係を捉えるのに役立ち、検索結果の関連性を向上させます。レコメンドシステムでは、ユーザーとアイテム間の類似性を特定し、よりパーソナライズされた提案を提供します。

概要

デンスベクトルは通常、固定長の浮動小数点数の配列として表され、[0.2, 0.7, 0.1, 0.8, 0.3, ..., 0.5]のような形式を取ります。これらのベクトルの次元は通常、数百から数千に渡り、128、256、768、1024などがあります。各次元はオブジェクトの特定のセマンティック特徴を捉え、類似性計算を通じてさまざまなシナリオに適用できます。

QOgMwbrhLhvvtbbk5TxcarhEn8i

上記の画像は、デンスベクトルを2次元空間で表したものです。現実のアプリケーションではデンスベクトルははるかに高次元であることが多いですが、この2次元の図はいくつかの重要な概念を効果的に伝えています:

  • 多次元表現: 各点は概念的なオブジェクト(Milvusvector databaseretrieval systemなど)を表し、その位置は次元の値によって決定されます。

  • セマンティック関係: 点間の距離は、概念間のセマンティック類似性を反映しています。近い点は、よりセマンティックに近い概念を示しています。

  • クラスタリング効果: 関連する概念(Milvusvector databaseretrieval systemなど)は空間上で近くに位置し、セマンティッククラスターを形成しています。

以下は、テキスト "Milvus is an efficient vector database" を表す実際のデンスベクトルの例です:

[
-0.013052909,
0.020387933,
-0.007869,
-0.11111383,
-0.030188112,
-0.0053388323,
0.0010654867,
0.072027855,
// ... さらに多くの次元
]

デンスベクトルは、CNNモデル(ResNetVGGなど)による画像処理や、言語モデル(BERTWord2Vecなど)によるテキスト処理など、さまざまな埋め込みモデルを使用して生成できます。これらのモデルは、生データを高次元空間の点に変換し、データのセマンティック特徴を捉えます。さらに、Zilliz Cloudは、デンスベクトルの生成と処理を支援する便利な方法を提供しており、詳しくは「埋め込み」を参照してください。

データがベクトル化されると、Zilliz Cloudクラスターに保存され、管理およびベクトル検索が可能になります。以下の図は基本的なプロセスを示しています。

No8KwR6wPhTIP6bKEqGcbBDWngc

📘注釈

デンスベクトルに加えて、Zilliz Cloudはスパースベクトルとバイナリベクトルもサポートしています。スパースベクトルは、キーワード検索や用語一致などの特定の用語に基づく正確な一致に適しています。一方、バイナリベクトルは、画像パターンマッチングや特定のハッシングアプリケーションなどのように、バイナリ化されたデータを効率的に処理するために一般的に使用されます。詳しくは、バイナリベクトルおよびスパースベクトルを参照してください。

デンスベクトルの使用

ベクトルフィールドの追加

Zilliz Cloudクラスターでデンスベクトルを使用するには、まずコレクション作成時にデンスベクトルを保存するベクトルフィールドを定義します。このプロセスには以下の作業が含まれます:

  1. datatypeをサポートされているデンスベクトルデータ型に設定します。サポートされているデンスベクトルデータ型については、「データ型」を参照してください。

  2. dimパラメータを使用してデンスベクトルの次元を指定します。

以下の例では、デンスベクトルを格納するためのdense_vectorという名前のベクトルフィールドを追加しています。フィールドのデータ型はFLOAT_VECTORで、次元は4です。

from pymilvus import MilvusClient, DataType

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

schema = client.create_schema(
auto_id=True,
enable_dynamic_fields=True,
)

schema.add_field(field_name="pk", datatype=DataType.VARCHAR, is_primary=True, max_length=100)
schema.add_field(field_name="dense_vector", datatype=DataType.FLOAT_VECTOR, dim=4)

デンスベクトルフィールドでサポートされているデータ型:

データ型

説明

FLOAT_VECTOR

32ビット浮動小数点数を格納し、科学計算や機械学習で実数を表すのに一般的に使用されます。類似するベクトルを区別する必要がある高精度のシナリオに最適です。

FLOAT16_VECTOR

16ビット半精度浮動小数点数を格納し、ディープラーニングやGPU計算に使用されます。精度がそれほど重要でないシナリオでストレージ容量を節約します。例えば、レコメンドシステムの低精度リコールフェーズなどです。

BFLOAT16_VECTOR

16ビットBrain Floating Point(bfloat16)数値を格納し、Float32と同じ指数範囲を提供しながら精度を低下させます。大規模画像検索など、大量のベクトルを迅速に処理する必要があるシナリオに適しています。

INT8_VECTOR

各次元の個々の要素が8ビット整数(int8)のベクトルを格納し、各要素の範囲は-128から127です。量子化されたディープラーニングモデル(ResNet、EfficientNetなど)用に設計されており、INT8_VECTORはモデルサイズを縮小し、精度のわずかな損失で推論を高速化します。

ベクトルフィールドのインデックスパラメータ設定

セマンティック検索を高速化するには、ベクトルフィールドに対してインデックスを作成する必要があります。インデックス作成により、大規模ベクトルデータの検索効率を大幅に向上させることができます。

index_params = client.prepare_index_params()

index_params.add_index(
field_name="dense_vector",
index_name="dense_vector_index",
index_type="AUTOINDEX",
metric_type="IP"
)

上記の例では、AUTOINDEXインデックスタイプを使用してdense_vectorフィールドに対してdense_vector_indexという名前のインデックスが作成されています。metric_typeIPに設定されており、内積が距離メトリックとして使用されることを示しています。

Zilliz Cloudはその他のメトリックタイプもサポートしています。詳細については、メトリックタイプを参照してください。

コレクションの作成

デンスベクトルとインデックスパラメータの設定が完了すると、デンスベクトルを含むコレクションを作成できます。以下の例では、create_collectionメソッドを使用してmy_collectionという名前のコレクションを作成しています。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

コレクションを作成した後、insertメソッドを使用してデンスベクトルを含むデータを追加します。挿入するデンスベクトルの次元数が、デンスベクトルフィールド追加時に定義したdim値と一致していることを確認してください。

data = [
{"dense_vector": [0.1, 0.2, 0.3, 0.7]},
{"dense_vector": [0.2, 0.3, 0.4, 0.8]},
]

client.insert(
collection_name="my_collection",
data=data
)

デンスベクトルに基づくセマンティック検索は、Zilliz Cloudクラスターのコア機能の1つであり、ベクトル間の距離に基づいてクエリベクトルと最も類似するデータをすばやく見つけることができます。類似性検索を実行するには、クエリベクトルと検索パラメータを準備し、searchメソッドを呼び出します。

search_params = {
"params": {"nprobe": 10}
}

query_vector = [0.1, 0.2, 0.3, 0.7]

res = client.search(
collection_name="my_collection",
data=[query_vector],
anns_field="dense_vector",
search_params=search_params,
limit=5,
output_fields=["pk"]
)

print(res)

# Output
# data: ["[{'id': '453718927992172271', 'distance': 0.7599999904632568, 'entity': {'pk': '453718927992172271'}}, {'id': '453718927992172270', 'distance': 0.6299999952316284, 'entity': {'pk': '453718927992172270'}}]"]

類似性検索パラメータの詳細については、基本ANN検索を参照してください。