メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

コレクションの作成

スキーマ、インデックスパラメータ、メトリックタイプ、および作成時にロードするかどうかを定義することで、コレクションを作成できます。このページでは、ゼロからコレクションを作成する方法を紹介します。

📘備考

強力なデータ分離を必要とし、少数のテナントのみを管理する場合は、各テナントに個別のコレクションを作成できます。

ただし、クラスタープランに応じて最大16,384個のコレクションしか作成できません。したがって、大規模なマルチテナンシーについては、使用ケースに応じてパーティションベースまたはパーティションキーベースのマルチテナンシーなどの代替戦略を検討してください。詳細については、マルチテナンシーの実装を参照してください。

概要

コレクションは固定列と可変行の2次元テーブルです。各列はフィールドを表し、各行はエンティティを表します。このような構造的データ管理を実装するにはスキーマが必要です。挿入するすべてのエンティティは、スキーマで定義された制約を満たす必要があります。

コレクションのすべての側面(スキーマ、インデックスパラメータ、メトリックタイプ、作成時のロードの有無)を決定して、コレクションが要件を完全に満たすようにできます。

コレクションを作成するには、次の手順が必要です:

スキーマの作成

スキーマはコレクションのデータ構造を定義します。コレクションを作成する際には、要件に応じてスキーマを設計する必要があります。詳細については、スキーマの説明を参照してください。

以下のコードスニペットは、有効なダイナミックフィールドと、my_idmy_vectormy_varcharという名前の3つの必須フィールドを持つスキーマを作成します。

📘備考

任意のスカラーフィールドにデフォルト値を設定し、NULLを許容するようにできます。詳細については、NULL許容とデフォルトを参照してください。

# 3. カスタマイズされたセットアップモードでコレクションを作成
from pymilvus import MilvusClient, DataType

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# 3.1. スキーマの作成
schema = MilvusClient.create_schema(
auto_id=False,
enable_dynamic_field=True,
)

# 3.2. スキーマにフィールドを追加
schema.add_field(field_name="my_id", datatype=DataType.INT64, is_primary=True)
schema.add_field(field_name="my_vector", datatype=DataType.FLOAT_VECTOR, dim=5)
schema.add_field(field_name="my_varchar", datatype=DataType.VARCHAR, max_length=512)

(オプション)インデックスパラメータの設定

特定のフィールドにインデックスを作成すると、そのフィールドに対する検索が高速化されます。インデックスはコレクション内のエンティティの順序を記録します。以下のコードスニペットに示すように、metric_typeindex_typeを使用して、Zilliz Cloudがフィールドにインデックスを作成し、ベクトル埋め込み間の類似性を測定する適切な方法を選択できます。

Zilliz Cloudでは、すべてのベクトルフィールドにインデックスタイプとしてAUTOINDEXを使用でき、必要に応じてメトリックタイプとしてCOSINEL2、およびIPのいずれかを使用できます。

上記のコードスニペットに示されているように、ベクトルフィールドにはインデックスタイプとメトリックタイプの両方を設定し、スカラーフィールドにはインデックスタイプのみを設定する必要があります。ベクトルフィールドにはインデックスが必須であり、フィルター条件で頻繁に使用されるスカラーフィールドにはインデックスを作成することをお勧めします。

詳細については、インデックスの管理を参照してください。

# 3.3. インデックスパラメータの準備
index_params = client.prepare_index_params()

# 3.4. インデックスを追加
index_params.add_index(
field_name="my_id",
index_type="AUTOINDEX"
)

index_params.add_index(
field_name="my_vector",
index_type="AUTOINDEX",
metric_type="COSINE"
)

コレクションの作成

インデックスパラメータでコレクションを作成すると、Zilliz Cloudはコレクションの作成時に自動的にロードします。この場合、インデックスパラメータで言及されているすべてのフィールドにインデックスが作成されます。

以下のコードスニペットは、インデックスパラメータでコレクションを作成し、そのロード状態を確認する方法を示しています。

# 3.5. インデックスを同時にロードしたコレクションを作成
client.create_collection(
collection_name="customized_setup_1",
schema=schema,
index_params=index_params
)

res = client.get_load_state(
collection_name="customized_setup_1"
)

print(res)

# 出力
#
# {
# "state": "<LoadState: Loaded>"
# }

インデックスパラメータを指定せずにコレクションを作成し、後でそれらを追加することもできます。この場合、Zilliz Cloudはコレクションの作成時にコレクションをロードしません。既存のコレクションにインデックスを作成する方法の詳細については、AUTOINDEXの説明を参照してください。

以下のコードスニペットは、インデックスなしでコレクションを作成する方法を示しており、コレクションのロード状態は作成時にロードされていない状態になります。

# 3.6. コレクションを作成し、別途インデックスを作成
client.create_collection(
collection_name="customized_setup_2",
schema=schema,
)

res = client.get_load_state(
collection_name="customized_setup_2"
)

print(res)

# 出力
#
# {
# "state": "<LoadState: NotLoad>"
# }

コレクションプロパティの設定

サービスに適したコレクションを作成するために、コレクションに対してプロパティを設定できます。適用可能なプロパティは以下のとおりです。

シャード数の設定

シャードはコレクションの水平分割であり、各シャードはデータ入力チャネルに対応します。デフォルトでは、すべてのコレクションには1つのシャードがあります。データ量とワークロードに適したシャード数を指定してコレクションを作成できます。

シャード数を設定する際の一般的なガイドラインは以下のとおりです:

  • データサイズ: 一般的な方法は2億エンティティにつき1つのシャードです。計画されている挿入データの合計データサイズに基づいて推定することもできます。たとえば、挿入するデータの100GBにつき1つのシャードを追加します。

以下のコードスニペットは、コレクションを作成する際にシャード数を設定する方法を示しています。

# シャード数の指定
client.create_collection(
collection_name="customized_setup_3",
schema=schema,
num_shards=1
)

mmapの有効化

Zilliz Cloudはデフォルトですべてのコレクションでmmapを有効にしており、Zilliz Cloudが生フィールドデータを完全にロードする代わりにメモリにマッピングできるようにしています。これにより、メモリフットプリントが削減され、コレクションの容量が増加します。mmapの詳細については、mmapの使用を参照してください。

# mmapの指定
client.create_collection(
collection_name="customized_setup_4",
schema=schema,
enable_mmap=False
)
export params='{
"mmap.enabled": True
}'

export CLUSTER_ENDPOINT="YOUR_CLUSTER_ENDPOINT"
export TOKEN="YOUR_CLUSTER_TOKEN"

curl --request POST \
--url "${CLUSTER_ENDPOINT}/v2/vectordb/collections/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Content-Type: application/json" \
-d "{
\"collectionName\": \"customized_setup_5\",
\"schema\": $schema,
\"params\": $params
}"

コレクションTTLの設定

コレクション内のデータを特定の期間後に削除する必要がある場合は、秒単位でそのTime-To-Live(TTL)を設定することを検討してください。TTLがタイムアウトすると、Zilliz Cloudはコレクション内のエンティティを削除します。削除は非同期であるため、削除が完了する前までは検索およびクエリが可能です。

以下のコードスニペットは、TTLを1日(86400秒)に設定します。最低でも数日間はTTLを設定することをお勧めします。

# TTLの指定
client.create_collection(
collection_name="customized_setup_5",
schema=schema,
properties={
"collection.ttl.seconds": 86400
}
)

一貫性レベルの設定

コレクションを作成する際には、コレクション内の検索およびクエリの一貫性レベルを設定できます。特定の検索またはクエリ中にコレクションの一貫性レベルを変更することもできます。

# 一貫性レベルの指定
client.create_collection(
collection_name="customized_setup_6",
schema=schema,
# highlight-next
consistency_level="Bounded",
)

一貫性レベルの詳細については、一貫性レベルを参照してください。

ダイナミックフィールドの有効化

コレクション内のダイナミックフィールドは、&#36;metaという名前の予約済みJavaScript Object Notation(JSON)フィールドです。このフィールドを有効にすると、Zilliz Cloudは各エンティティに含まれるスキーマ定義されていないすべてのフィールドとその値を、予約済みフィールド内にキーバリューペアとして保存します。

ダイナミックフィールドの使い方の詳細については、ダイナミックフィールドを参照してください。