メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

コレクションの作成

スキーママ、インデックスパラメータ、メトリック型、作成時にロードするかどうかを定義することでコレクションを作成できます。このページでは、最初からコレクションを作成する方法を紹介します。

📘注意

強力なデータ分離が必要で、少数のテナントのみを管理する場合は、テナントごとに個別のコレクションを作成できます。

ただし、クラスタープランに応じて最大16,384個のコレクションしか作成できません。したがって、大規模なマルチテナントでは、使用ケースに応じてパーティションベースまたはパーティションキーベースのマルチテナントなどの代替戦略を使用することを検討してください。詳細については、マルチテナントの実装を参照してください。

概要

コレクションは固定カラムと可変行を持つ2次元テーブルです。各カラムはフィールドを表し、各行はエンティティを表します。このような構造的データ管理を実装するにはスキーママが必要です。挿入するすべてのエンティティは、スキーママで定義された制約を満たす必要があります。

コレクションのすべての側面を決定できます。これには、コレクションが要件を完全に満たすようにするために必要な、そのスキーママ、インデックスパラメータ、メトリック型、作成時にロードするかどうかを含みます。

コレクションを作成するには以下が必要です:

スキーママの作成

スキーママは、コレクションのデータ構造を定義します。コレクションを作成する際には、要件に基づいてスキーママを設計する必要があります。詳細については、スキーママの説明を参照してください。

以下のコードスニペットは、有効化された動的フィールドとmy_idmy_vectormy_varcharという名前の3つの必須フィールドを持つスキーママを作成します。

📘注意

任意のスカラー項目にデフォルト値を設定し、NULL可能にできます。詳細については、NULL可能とデフォルトを参照してください。

# 3. カスタム設定モードでコレクションを作成
from pymilvus import MilvusClient, DataType

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# 3.1. スキーママを作成
schema = MilvusClient.create_schema(
auto_id=False,
enable_dynamic_field=True,
)

# 3.2. スキーママにフィールドを追加
schema.add_field(field_name="my_id", datatype=DataType.INT64, is_primary=True)
schema.add_field(field_name="my_vector", datatype=DataType.FLOAT_VECTOR, dim=5)
schema.add_field(field_name="my_varchar", datatype=DataType.VARCHAR, max_length=512)

(オプション)インデックスパラメータの設定

特定のフィールドにインデックスを作成すると、このフィールドに対する検索が高速化されます。インデックスはコレクション内のエンティティの順序を記録します。以下のコードスニペットに示すように、metric_typeおよびindex_typeを使用して、Zilliz Cloudがフィールドをインデックス化し、ベクトル埋め込み間の類似性を測定する適切な方法を選択できます。

Zilliz Cloudでは、すべてのベクトルフィールドにAUTOINDEXをインデックスタイプとして使用し、必要に応じてメトリック型としてCOSINEL2IPのいずれかを使用できます。

上記のコードスニペットに示されているように、ベクトルフィールドにはインデックスタイプとメトリック型の両方を設定する必要があり、スカラー項目にはインデックスタイプのみを設定する必要があります。インデックスはベクトルフィールドに必須であり、フィルタリング条件で頻繁に使用されるスカラー項目にもインデックスを作成することをお勧めします。

詳細については、インデックスの管理を参照してください。

# 3.3. インデックスパラメータを準備
index_params = client.prepare_index_params()

# 3.4. インデックスを追加
index_params.add_index(
field_name="my_id",
index_type="AUTOINDEX"
)

index_params.add_index(
field_name="my_vector",
index_type="AUTOINDEX",
metric_type="COSINE"
)

コレクションの作成

インデックスパラメータを使用してコレクションを作成した場合、Zilliz Cloudは作成時にコレクションを自動的にロードします。この場合、インデックスパラメータで言及されているすべてのフィールドがインデックス化されます。

以下のコードスニペットは、インデックスパラメータとともにコレクションを作成し、そのロード状態を確認する方法を示しています。

# 3.5. インデックス付きでコレクションを作成
client.create_collection(
collection_name="customized_setup_1",
schema=schema,
index_params=index_params
)

res = client.get_load_state(
collection_name="customized_setup_1"
)

print(res)

# 出力
#
# {
# "state": "<LoadState: Loaded>"
# }

インデックスパラメータを設定せずにコレクションを作成し、後で追加することもできます。この場合、Zilliz Cloudは作成時にコレクションをロードしません。既存のコレクションにインデックスを作成する方法の詳細については、AUTOINDEXの説明を参照してください。

以下のコードスニペットは、インデックスなしでコレクションを作成する方法を示し、作成時はロード状態がロードされていないままになります。

# 3.6. インデックスを分離してコレクションを作成
client.create_collection(
collection_name="customized_setup_2",
schema=schema,
)

res = client.get_load_state(
collection_name="customized_setup_2"
)

print(res)

# 出力
#
# {
# "state": "<LoadState: NotLoad>"
# }

コレクションプロパティの設定

コレクションを作成する際にプロパティを設定して、サービスに合わせることができます。適用可能なプロパティは以下の通りです。

シャード数の設定

シャードはコレクションの水平スライスであり、各シャードはデータ入力チャネルに対応します。デフォルトでは、すべてのコレクションは1つのシャードを持ちます。データ量とワークロードに合わせて、コレクション作成時にシャード数を指定できます。

シャード数を設定する際の一般的なガイドラインは以下の通りです:

  • データサイズ: 慣例として、2億エンティティにつき1つのシャードを用いるのが一般的です。また、総データサイズに基づいて見積もることもできます。たとえば、挿入する予定のデータ量に応じて、100GBごとに1つのシャードを追加することもできます。

以下のコードスニペットは、コレクション作成時にシャード数を設定する方法を示しています。

# シャード数付き
client.create_collection(
collection_name="customized_setup_3",
schema=schema,
num_shards=1
)

mmapの有効化

Zilliz Cloudはデフォルトですべてのコレクションでmmapを有効にしており、Zilliz Cloudが生フィールドデータを完全にロードする代わりにメモリにマッピングできるようにしています。これによりメモリの使用量が削減され、コレクション容量が拡大します。mmapの詳細については、mmapの使用を参照してください。

# mmap付き
client.create_collection(
collection_name="customized_setup_4",
schema=schema,
enable_mmap=False
)
export params='{
"mmap.enabled": True
}'

export CLUSTER_ENDPOINT="YOUR_CLUSTER_ENDPOINT"
export TOKEN="YOUR_CLUSTER_TOKEN"

curl --request POST \
--url "${CLUSTER_ENDPOINT}/v2/vectordb/collections/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Content-Type: application/json" \
-d "{
\"collectionName\": \"customized_setup_5\",
\"schema\": $schema,
\"params\": $params
}"

コレクションTTLの設定

コレクション内のデータが特定の期間後に削除される必要がある場合は、TTL(Time-To-Live)を秒単位で設定することを検討してください。TTLがタイムアウトすると、Zilliz Cloudはコレクション内のエンティティを削除します。削除は非同期操作であるため、削除が完了する前に検索およびクエリは引き続き可能です。

以下のコードスニペットは、TTLを1日(86400秒)に設定します。最低でも数日間のTTLを設定することをお勧めします。

# TTL付き
client.create_collection(
collection_name="customized_setup_5",
schema=schema,
properties={
"collection.ttl.seconds": 86400
}
)

一貫性レベルの設定

コレクションを作成する際には、コレクション内の検索およびクエリの一貫性レベルを設定できます。特定の検索またはクエリ中にコレクションの一貫性レベルを変更することもできます。

# 一貫性レベル付き
client.create_collection(
collection_name="customized_setup_6",
schema=schema,
# highlight-next
consistency_level="Bounded",
)

一貫性レベルの詳細については、一貫性レベルを参照してください。

動的フィールドの有効化

コレクションの動的フィールドは、&#36;metaという名前の予約済みJavaScript Object Notation(JSON)フィールドです。このフィールドを有効にすると、Zilliz Cloudは各エンティティに含まれるスキーママ定義されていないすべてのフィールドとその値を、予約済みフィールド内のキーバリューとして保存します。

動的フィールドの使用方法の詳細については、動的フィールドを参照してください。