メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

スキーマの説明

スキーemaはコレクションのデータ構造を定義します。コレクションを作成する前に、そのスキーマ設計を検討する必要があります。このページでは、コレクションのスキーマについて理解し、独自に例となるスキーマを設計できるように支援します。

概要

Zilliz Cloud では、コレクションのスキーマはリレーショナルデータベースにおけるテーブルに相当し、Zilliz Cloud がコレクション内でデータをどのように構成するかを定義します。

適切に設計されたスキーマは非常に重要です。なぜなら、スキーマはデータモデルを抽象化し、検索を通じてビジネス目標を達成できるかどうかを決定するからです。さらに、コレクションに挿入されるすべてのデータ行はスキーマに従う必要があるため、データの一貫性と長期的な品質を維持するのに役立ちます。技術的な観点からは、明確に定義されたスキーマにより、列指向のデータストレージが整理され、インデックス構造もシンプルになるため、検索パフォーマンスが向上します。

コレクションのスキーマには、主キー(primary key)、少なくとも1つのベクトルフィールド、および複数のスカラーフィールドが含まれます。以下の図は、記事をスキーマフィールドのリストにどのようにマッピングするかを示しています。

RoJFbyTsuoY8mHxoBBicgBH9nTc

検索システムのデータモデル設計では、ビジネス要件を分析し、情報をスキーマで表現可能なデータモデルに抽象化します。例えば、テキストを検索可能にするには、「埋め込み(embedding)」によって文字列をベクトルに変換し、「インデックス化」してベクトル検索を有効にする必要があります。この基本要件に加えて、公開日時や著者などの他のプロパティを保存することも必要になる場合があります。このようなメタデータにより、セマンティック検索をフィルタリングによって絞り込むことができ、特定の日付以降に公開されたものや特定の著者によるテキストのみを返すことができます。また、これらのスカラーフィールドをメインテキストとともに取得し、アプリケーション上で検索結果を表示することも可能です。これらのテキスト片を整理するために、それぞれに一意の識別子(整数または文字列)を割り当てる必要があります。これらすべての要素が、高度な検索ロジックを実現するために不可欠です。

適切なスキーマの作成方法については、Schema Design Hands-On を参照してください。

スキーマの作成

以下のコードスニペットは、スキーマを作成する方法を示しています。

from pymilvus import MilvusClient, DataType

schema = MilvusClient.create_schema()

主キーの追加

コレクション内の主キーは、エンティティを一意に識別します。このフィールドには Int64 または VarChar 値のみを受け付けます。以下のコードスニペットは、主キーを追加する方法を示しています。

schema.add_field(
field_name="my_id",
datatype=DataType.INT64,
is_primary=True,
auto_id=False,
)

フィールドを追加する際、そのフィールドの is_primary プロパティを True に設定することで、明示的にそのフィールドをプライマリフィールドとして指定できます。プライマリフィールドはデフォルトで Int64 値を受け入れます。この場合、プライマリフィールドの値は 12345 のような整数である必要があります。プライマリフィールドで VarChar 値を使用する場合は、my_entity_1234 のような文字列を指定する必要があります。

また、autoId プロパティを True に設定すると、データ挿入時に Zilliz Cloud が自動的にプライマリフィールドの値を割り当てます。

📘Notes

手動で主キーを設定することが有益でない限り、すべてのケースで autoId を使用することをお勧めします。

詳細については、Primary Field & AutoId を参照してください。

ベクトルフィールドの追加

ベクトルフィールドは、さまざまなスパースベクトルおよび密ベクトル埋め込み(embedding)を受け入れます。Zilliz Cloud では、コレクションに最大4つのベクトルフィールドを追加できます。以下のコードスニペットは、ベクトルフィールドを追加する方法を示しています。

schema.add_field(
field_name="my_vector",
datatype=DataType.FLOAT_VECTOR,
dim=5
)

上記のコードスニペットにおける dim パラメータは、ベクターフィールドに格納されるベクトル埋め込みの次元数を示します。FLOAT_VECTOR の値は、ベクターフィールドが通常対数の逆関数(antilogarithms)を表現するために使用される32ビット浮動小数点数のリストを保持することを示しています。これに加えて、Zilliz Cloud は以下のベクトル埋め込みタイプもサポートしています:

  • FLOAT16_VECTOR

    このタイプのベクターフィールドは、16ビットの半精度浮動小数点数のリストを保持し、主にメモリまたは帯域幅が制限されたディープラーニングや GPU ベースのコンピューティングのシナリオに適用されます。

  • BFLOAT16_VECTOR

    このタイプのベクターフィールドは、精度は低下しているものの Float32 と同じ指数範囲を持つ16ビット浮動小数点数のリストを保持します。このデータタイプはディープラーニングのシナリオで一般的に使用され、精度への影響を最小限に抑えつつメモリ使用量を削減します。

  • INT8_VECTOR

    このタイプのベクターフィールドは、–128 から 127 の範囲の8ビット符号付き整数(int8)で構成されるベクトルを格納します。ResNet や EfficientNet などの量子化されたディープラーニングアーキテクチャ向けに最適化されており、精度の損失を最小限に抑えながらモデルサイズを大幅に縮小し、推論速度を向上させます。注記: このベクタータイプは HNSW インデックスでのみサポートされています。

  • BINARY_VECTOR

    このタイプのベクターフィールドは、0 と 1 のリストを保持します。画像処理や情報検索のシナリオにおいて、データを表現するためのコンパクトな特徴量として利用されます。

  • SPARSE_FLOAT_VECTOR

    このタイプのベクターフィールドは、非ゼロの数値とそのシーケンス番号のリストを保持し、スパースベクトル埋め込みを表現します。

スカラーフィールドの追加

一般的なケースでは、Zilliz Cloud クラスターに格納されたベクトル埋め込みのメタデータを保存するためにスカラーフィールドを使用できます。また、メタデータによるフィルタリングを伴う ANN 検索を実行することで、検索結果の正確性を向上させることができます。Zilliz Cloud は、VarCharBooleanIntFloatDouble を含む複数のスカラーフィールドタイプをサポートしています。

文字列フィールドの追加

Zilliz Cloud クラスターでは、文字列を格納するために VarChar フィールドを使用できます。VarChar フィールドの詳細については、String Field を参照してください。

schema.add_field(
field_name="my_varchar",
datatype=DataType.VARCHAR,
max_length=512
)

数値フィールドの追加

Zilliz Cloud がサポートする数値型は、Int8Int16Int32Int64Float、および Double です。数値フィールドの詳細については、Number Field を参照してください。

schema.add_field(
field_name="my_int64",
datatype=DataType.INT64,
)

Booleanフィールドの追加

Zilliz Cloudはbooleanフィールドをサポートしています。以下のコードスニペットは、booleanフィールドを追加する方法を示しています。

schema.add_field(
field_name="my_bool",
datatype=DataType.BOOL,
)

複合フィールドの追加

Milvus では、複合フィールド(composite field)とは、JSON フィールド内のキーまたは 配列 フィールド内のインデックスなど、より小さなサブフィールドに分割可能なフィールドを指します。

JSON フィールドの追加

JSON フィールドは通常、半構造化された JSON データを格納します。JSON フィールドの詳細については、JSON フィールドを参照してください。

schema.add_field(
field_name="my_json",
datatype=DataType.JSON,
)

配列フィールドの追加

配列フィールドは、要素のリストを格納します。配列フィールド内のすべての要素のデータ型は同一である必要があります。配列フィールドの詳細については、配列 Field を参照してください。

schema.add_field(
field_name="my_array",
datatype=DataType.ARRAY,
element_type=DataType.VARCHAR,
max_capacity=5,
max_length=512,
)