メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

Voyage AI

このトピックでは、Milvus で Voyage AI 埋め込み関数を設定して使用する方法について説明します。

モデルの選択肢

Milvus は Voyage AI が提供する埋め込みモデルをサポートしています。以下に、現在利用可能な埋め込みモデルを簡単に参照できるように示します。

モデル名

次元

最大トークン数

説明

voyage-4-large

1024 (デフォルト), 256, 512, 2048

32,000

最高の汎用および多言語検索品質。4シリーズで作成されたすべての埋め込みは互換性があります。詳細はブログ記事を参照してください。

voyage-4

1024 (デフォルト), 256, 512, 2048

32,000

汎用および多言語検索品質に最適化されています。4シリーズで作成されたすべての埋め込みは互換性があります。詳細はブログ記事を参照してください。

voyage-4-lite

1024 (デフォルト), 256, 512, 2048

32,000

レイテンシとコストに最適化されています。4シリーズで作成されたすべての埋め込みは互換性があります。詳細はブログ記事を参照してください。

voyage-3-large

1,024 (デフォルト), 256, 512, 2,048

32,000

最高の汎用および多言語検索品質。

voyage-3

1,024

32,000

汎用および多言語検索品質に最適化されています。詳細はブログ記事を参照してください。

voyage-3-lite

512

32,000

レイテンシとコストに最適化されています。詳細はブログ記事を参照してください。

voyage-code-3

1,024 (デフォルト), 256, 512, 2,048

32,000

コード検索に最適化されています。詳細はブログ記事を参照してください。

voyage-finance-2

1,024

32,000

金融検索とRAGに最適化されています。詳細はブログ記事を参照してください。

voyage-law-2

1,024

16,000

法務検索とRAGに最適化されています。また、すべてのドメインでパフォーマンスが向上しています。詳細はブログ記事を参照してください。

voyage-code-2

1,536

16,000

コード検索に最適化されています(代替案より17%優れています)/前世代のコード埋め込み。詳細はブログ記事を参照してください。

詳細については、Text embedding models を参照してください。

開始する前に

テキスト埋め込み関数を使用する前に、以下の前提条件が満たされていることを確認してください。

  • 埋め込みモデルを選択

    使用する埋め込みモデルを決定します。この選択により、埋め込みの動作と出力形式が決まります。詳細については、埋め込みモデルを選択 を参照してください。

  • Voyage AI と統合し、統合IDを取得

    Voyage AI とモデルプロバイダー連携を作成し、その埋め込みモデルを使用する前に統合IDを取得する必要があります。詳細については、モデルプロバイダーと統合 を参照してください。

  • 互換性のあるコレクションスキーマを設計

    コレクションスキーマには以下を含めるように計画してください。

    • 生の入力テキスト用のテキストフィールド (VARCHAR)

    • 選択した埋め込みモデルのデータ型と次元に一致する密ベクトルフィールド

  • 挿入時と検索時に生のテキストを扱う準備

    テキスト埋め込み関数が有効になっている場合、生のテキストを直接挿入およびクエリします。埋め込みはシステムによって自動的に生成されます。

ステップ1:テキスト埋め込み関数を持つコレクションを作成する

スキーマフィールドの定義

埋め込み関数を使用するには、特定のスキーマを持つコレクションを作成します。このスキーマには、少なくとも3つの必要なフィールドを含める必要があります。

  • コレクション内の各エンティティを一意に識別するプライマリフィールド。

  • 埋め込む生のデータを保存する VARCHAR フィールド。

  • テキスト埋め込み関数が VARCHAR フィールド用に生成する密ベクトル埋め込みを保存するために予約されたベクトルフィールド。

以下の例では、テキストデータを保存するための VARCHAR フィールド "document" と、テキスト埋め込み関数によって生成される密埋め込みを保存するためのベクトルフィールド "dense" を持つスキーマを定義しています。ベクトル次元 (dim) を選択した埋め込みモデルの出力に一致するように設定することを忘れないでください。

from pymilvus import MilvusClient, DataType, Function, FunctionType

# Initialize Milvus client
client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# Create a new schema for the collection
schema = client.create_schema()

# Add primary field "id"
schema.add_field("id", DataType.INT64, is_primary=True, auto_id=False)

# Add scalar field "document" for storing textual data
schema.add_field("document", DataType.VARCHAR, max_length=9000)

# Add vector field "dense" for storing embeddings.
# IMPORTANT: Set dim to match the exact output dimension of the embedding model.
schema.add_field("dense", DataType.FLOAT_VECTOR, dim=1024)

テキスト埋め込み関数を定義する

テキスト埋め込み関数は、VARCHARフィールドに保存された生データを自動的に埋め込みに変換し、明示的に定義されたベクトルフィールドに保存します。

以下の例では、スカラーフィールド"document"を埋め込みに変換し、結果のベクトルを以前に定義した"dense"ベクトルフィールドに保存する関数モジュール(voya)を追加します。

埋め込み関数を定義したら、それをコレクションスキーマに追加します。これにより、Milvusは指定された埋め込み関数を使用して、テキストデータから埋め込みを処理および保存するように指示されます。

# Define embedding function specifically for embedding model provider
text_embedding_function = Function(
name="voya", # Unique identifier for this embedding function
function_type=FunctionType.TEXTEMBEDDING, # Indicates a text embedding function
input_field_names=["document"], # Scalar field(s) containing text data to embed
output_field_names=["dense"], # Vector field(s) for storing embeddings
params={ # Provider-specific embedding parameters (function-level)
"provider": "voyageai", # Must be set to "voyageai"
"model_name": "voyage-3-large", # Specifies the embedding model to use

"integration_id": "YOUR_INTEGRATION_ID", # Integration ID generated in the Zilliz Cloud console for the selected model provider

# "url": "https://api.voyageai.com/v1/embeddings", # Defaults to the official endpoint if omitted
# "dim": "1024" # Output dimension of the vector embeddings after truncation
# "truncation": "true" # Whether to truncate the input texts to fit within the context length. Defaults to true.
}
)

# Add the configured embedding function to your existing collection schema
schema.add_function(text_embedding_function)

インデックスの設定

必要なフィールドと組み込み関数でスキーマを定義したら、コレクションのインデックスを設定します。このプロセスを簡素化するために、index_typeとしてAUTOINDEXを使用します。これは、Zilliz Cloudがデータの構造に基づいて最も適切なインデックスタイプを選択し、設定できるようにするオプションです。

# Prepare index parameters
index_params = client.prepare_index_params()

# Add AUTOINDEX to automatically select optimal indexing method
index_params.add_index(
field_name="dense",
index_type="AUTOINDEX",
metric_type="COSINE"
)

コレクションの作成

次に、定義されたスキーマとインデックスパラメータを使用してコレクションを作成します。

# Create collection named "demo"
client.create_collection(
collection_name='demo',
schema=schema,
index_params=index_params
)

ステップ2: データの挿入

コレクションとインデックスの設定が完了したら、生データを挿入する準備が整います。このプロセスでは、生テキストを提供するだけで済みます。以前に定義したFunctionモジュールは、各テキストエントリに対応する疎ベクトルを自動的に生成します。

# Insert sample documents
client.insert('demo', [
{'id': 1, 'document': 'Milvus simplifies semantic search through embeddings.'},
{'id': 2, 'document': 'Vector embeddings convert text into searchable numeric data.'},
{'id': 3, 'document': 'Semantic search helps users find relevant information quickly.'},
])

ステップ3: テキストで検索する

データ挿入後、生のクエリテキストを使用してセマンティック検索を実行します。Milvusは自動的にクエリを埋め込みベクトルに変換し、類似性に基づいて関連ドキュメントを取得し、最も一致する結果を返します。

# Perform semantic search
results = client.search(
collection_name='demo',
data=['How does Milvus handle semantic search?'], # Use text query rather than query vector
anns_field='dense', # Use the vector field that stores embeddings
limit=1,
output_fields=['document'],
)

print(results)