メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

スキーマの説明

スキーマはコレクションのデータ構造を定義します。コレクションを作成する前に、そのスキーマの設計を練る必要があります。このページでは、コレクションスキーマを理解し、独自の例となるスキーマを設計する方法を説明します。

概要

Zilliz Cloudでは、コレクションスキーマはリレーショナルデータベースのテーブルのように機能し、Zilliz Cloudがコレクション内のデータをどのように整理するかを定義します。

設計の良いスキーマは不可欠であり、データモデルを抽象化し、検索を通じてビジネス目標を達成できるかどうかを決定します。さらに、コレクションに挿入されるすべてのデータ行がスキーマに従わなければならないため、データの一貫性と長期的な品質を維持するのに役立ちます。技術的な観点から見ると、定義の良いスキーマは、よく整理されたカラムデータストレージとよりクリーンなインデックス構造をもたらし、検索パフォーマンスを向上させます。

コレクションスキーマには、主キー、少なくとも1つのベクトルフィールド、およびいくつかのスカラーフィールドがあります。以下の図は、記事をスキーマフィールドのリストにマッピングする方法を示しています。

RoJFbyTsuoY8mHxoBBicgBH9nTc

検索システムのデータモデル設計には、ビジネスニーズの分析と情報をスキーマで表現されたデータモデルに抽象化することが含まれます。例えば、テキストの一部を検索するには、リテラル文字列を「埋め込み」によってベクトルに変換し、ベクトル検索を可能にする必要があります。この基本的な要件に加えて、発行日時や著者などの他のプロパティを保存することが必要な場合があります。このメタデータにより、セマンティック検索をフィルタリングによって洗練させ、特定の日付以降に発行されたテキストや特定の著者のテキストのみを返すことができます。また、メインテキストとともにこれらのスカラー値を取得して、アプリケーションで検索結果をレンダリングすることもできます。これらのテキスト断片を整理するには、それぞれに一意の識別子を割り当てる必要があります。これは整数または文字列として表現されます。これらの要素は、洗練された検索ロジックを実現するために不可欠です。

設計の良いスキーマを作成する方法については、スキーマ設計 ハンズオンを参照してください。

スキーマの作成

以下のコードスニペットは、スキーマを作成する方法を示しています。

from pymilvus import MilvusClient, DataType

schema = MilvusClient.create_schema()

主フィールドの追加

コレクションの主フィールドは、エンティティを一意に識別します。これはInt64またはVarCharの値のみを受け入れます。以下のコードスニペットは、主フィールドを追加する方法を示しています。

schema.add_field(
field_name="my_id",
datatype=DataType.INT64,
is_primary=True,
auto_id=False,
)

フィールドを追加する際には、is_primaryプロパティをTrueに設定して、フィールドを明示的に主フィールドとして定義できます。主フィールドはデフォルトでInt64の値を受け入れます。この場合、主フィールド値は12345のような整数である必要があります。主フィールドでVarCharの値を使用することを選択した場合、値はmy_entity_1234のような文字列である必要があります。

また、autoIdプロパティをTrueに設定して、Zilliz Cloudがデータ挿入時に主フィールド値を自動的に割り当てるようにすることもできます。

詳細については、主フィールド & AutoIdを参照してください。

ベクトルフィールドの追加

ベクトルフィールドは、さまざまなスパースおよびデンスベクトル埋め込みを受け入れます。Zilliz Cloudでは、1つのコレクションに4つのベクトルフィールドを追加できます。以下のコードスニペットは、ベクトルフィールドを追加する方法を示しています。

schema.add_field(
field_name="my_vector",
datatype=DataType.FLOAT_VECTOR,
dim=5
)

上記のコードスニペットのdimパラメータは、ベクトルフィールドに保持されるベクトル埋め込みの次元数を示します。FLOAT_VECTOR値は、ベクトルフィールドが32ビット浮動小数点数のリストを保持することを示しており、通常は対数の逆数を表すために使用されます。これに加えて、Zilliz Cloudは以下のタイプのベクトル埋め込みもサポートしています。

  • FLOAT16_VECTOR

    このタイプのベクトルフィールドは、16ビット半精度浮動小数点数のリストを保持し、通常はメモリや帯域幅が制限されたディープラーニングやGPUベースのコンピューティングのシナリオに適用されます。

  • BFLOAT16_VECTOR

    このタイプのベクトルフィールドは、Float32と同じ指数範囲を持つが精度が低い16ビット浮動小数点数のリストを保持します。このタイプのデータはディープラーニングのシナリオで一般的に使用され、精度に大きく影響を与えることなくメモリ使用量を削減します。

  • BINARY_VECTOR

    このタイプのベクトルフィールドは、0と1のリストを保持します。これらは、画像処理や情報検索のシナリオでデータを表すためのコンパクトな特徴量として機能します。

  • SPARSE_FLOAT_VECTOR

    このタイプのベクトルフィールドは、非ゼロ数値とそのシーケンス番号のリストを保持して、スパースベクトル埋め込みを表します。

スカラーフィールドの追加

一般的なケースでは、スカラーフィールドを使用して、Zilliz Cloudクラスターに保存されたベクトル埋め込みのメタデータを保存し、メタデータフィルタリング付きのANN検索を実行して検索結果の正確性を向上させることができます。Zilliz Cloudは、VarCharBooleanIntFloatDoubleを含む複数のスカラーフィールドタイプをサポートしています。

文字列フィールドの追加

Zilliz Cloudクラスターでは、VarCharフィールドを使用して文字列を保存できます。VarCharフィールドの詳細については、文字列フィールドを参照してください。

schema.add_field(
field_name="my_varchar",
datatype=DataType.VARCHAR,
max_length=512
)

数値フィールドの追加

Zilliz Cloudがサポートしている数値のタイプは、Int8Int16Int32Int64Float、およびDoubleです。数値フィールドの詳細については、数値フィールドを参照してください。

schema.add_field(
field_name="my_int64",
datatype=DataType.INT64,
)

真偽値フィールドの追加

Zilliz Cloudは真偽値フィールドをサポートしています。以下のコードスニペットは、真偽値フィールドを追加する方法を示しています。

schema.add_field(
field_name="my_bool",
datatype=DataType.BOOL,
)

複合フィールドの追加

Milvusでは、複合フィールドはJSONフィールドのキーまたはArrayフィールドのインデックスのように、より小さなサブフィールドに分割できるフィールドです。

JSONフィールドの追加

JSONフィールドは通常、半構造化されたJSONデータを保存します。JSONフィールドの詳細については、JSONフィールドを参照してください。

schema.add_field(
field_name="my_json",
datatype=DataType.JSON,
)

配列フィールドの追加

配列フィールドは、要素のリストを保存します。配列フィールド内のすべての要素のデータ型は同じである必要があります。配列フィールドの詳細については、配列フィールドを参照してください。

schema.add_field(
field_name="my_array",
datatype=DataType.ARRAY,
element_type=DataType.VARCHAR,
max_capacity=5,
max_length=512,
)