メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

ダイナミックフィールド

Zilliz Cloudでは、ダイナミックフィールドと呼ばれる特別な機能を通じて、柔軟で進化する構造を持つエンティティを挿入できます。このフィールドは、$metaという隠しJSONフィールドとして実装されており、コレクションスキーマで明示的に定義されていないデータ内のすべてのフィールドを自動的に保存します。

仕組み

ダイナミックフィールドが有効な場合、Zilliz Cloudは各エンティティに隠しフィールド$metaを追加します。このフィールドはJSON型であるため、JSON互換のデータ構造を格納でき、JSONパス構文を使用してインデックスを作成できます。

データ挿入中、スキーマで宣言されていないフィールドは、このダイナミックフィールド内にキーと値のペアとして自動的に保存されます。

$metaを手動で管理する必要はありません。Zilliz Cloudが透過的に処理します。

たとえば、コレクションスキーマがidvectorのみを定義しており、次のエンティティを挿入する場合:

{
"id": 1,
"vector": [0.1, 0.2, 0.3],
"name": "Item A", // Not in schema
"category": "books" // Not in schema
}

動的フィールド機能が有効になっている場合、Zilliz Cloud はそれを内部的に次のように保存します。

{
"id": 1,
"vector": [0.1, 0.2, 0.3],
"$meta": {
"name": "Item A",
"category": "books"
}
}

これにより、スキーマを変更することなくデータ構造を進化させることができます。

一般的なユースケースは次のとおりです。

  • オプションまたはめったに取得されないフィールドの保存

  • エンティティによって異なるメタデータのキャプチャ

  • 特定の動的フィールドキーのインデックスによる柔軟なフィルタリングのサポート

サポートされているデータ型

動的フィールドは、Zilliz Cloud が提供するすべてのスカラーデータ型をサポートしており、単純な値と複雑な値の両方が含まれます。これらのデータ型は、$meta に保存されているキーの値に適用されます。

サポートされている型は次のとおりです。

  • 文字列 (VARCHAR)

  • 整数 (INT8INT32INT64)

  • 浮動小数点 (FLOATDOUBLE)

  • ブール値 (BOOL)

  • スカラー値の配列 (ARRAY)

  • JSON オブジェクト (JSON)

例:

{
"brand": "Acme",
"price": 29.99,
"in_stock": true,
"tags": ["new", "hot"],
"specs": {
"weight": "1.2kg",
"dimensions": { "width": 10, "height": 20 }
}
}

上記のキーと値はそれぞれ$metaフィールド内に保存されます。

動的フィールドの有効化

動的フィールド機能を使用するには、コレクションスキーマを作成する際にenable_dynamic_field=Trueを設定します。

from pymilvus import MilvusClient, DataType

# Initialize client
client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

# Create schema with dynamic field enabled
schema = client.create_schema(
auto_id=False,
enable_dynamic_field=True,
)

# Add explicitly defined fields
schema.add_field(field_name="my_id", datatype=DataType.INT64, is_primary=True)
schema.add_field(field_name="my_vector", datatype=DataType.FLOAT_VECTOR, dim=5)

# Create the collection
client.create_collection(
collection_name="my_collection",
schema=schema
)

コレクションへのエンティティの挿入

動的フィールドを使用すると、スキーマで定義されていない追加のフィールドを挿入できます。これらのフィールドは自動的に $meta に保存されます。

entities = [
{
"my_id": 1, # Explicitly defined primary field
"my_vector": [0.1, 0.2, 0.3, 0.4, 0.5], # Explicitly defined vector field
"overview": "Great product", # Scalar key not defined in schema
"words": 150, # Scalar key not defined in schema
"dynamic_json": { # JSON key not defined in schema
"varchar": "some text",
"nested": {
"value": 42.5
},
"string_price": "99.99" # Number stored as string
}
}
]

client.insert(collection_name="my_collection", data=entities)

動的フィールドのインデックスキー

Zilliz Cloudでは、JSONパスインデックスを使用して、動的フィールド内の特定のキーにインデックスを作成できます。これらは、JSONオブジェクト内のスカラー値またはネストされた値にすることができます。

📘Notes

動的フィールドキーのインデックス作成はオプションです。インデックスがなくても動的フィールドキーでクエリまたはフィルタリングできますが、ブルートフォース検索のためパフォーマンスが低下する可能性があります。

JSONパスインデックスの構文

JSONパスインデックスを作成するには、以下を指定します。

  • JSONパス (json_path): インデックスを作成するJSONオブジェクト内のキーまたはネストされたフィールドへのパス。

    • 例: metadata["category"]

      これは、インデックス作成エンジンがJSON構造のどこを探すべきかを定義します。

  • JSONキャストタイプ (json_cast_type): 指定されたパスの値を解釈およびインデックス作成する際にZilliz Cloudが使用すべきデータ型。

JSONパスを使用して動的フィールドキーをインデックス作成する

動的フィールドはJSONフィールドであるため、JSONパス構文を使用してその中の任意のキーをインデックス作成できます。これは、単純なスカラー値と複雑なネストされた構造の両方で機能します。

JSONパスの例:

  • 単純なキーの場合: overview, words

  • ネストされたキーの場合: dynamic_json['varchar'], dynamic_json['nested']['value']

index_params = client.prepare_index_params()

# Index a simple string key
index_params.add_index(
field_name="overview", # Key name in the dynamic field
index_type="AUTOINDEX", # Must be set to AUTOINDEX for JSON path indexing
index_name="overview_index", # Unique index name
params={
"json_cast_type": "varchar", # Data type that Zilliz Cloud uses when indexing the values
"json_path": "overview" # JSON path to the key
}
)

# Index a simple numeric key
index_params.add_index(
field_name="words", # Key name in the dynamic field
index_type="AUTOINDEX", # Must be set to AUTOINDEX for JSON path indexing
index_name="words_index", # Unique index name
params={
"json_cast_type": "double", # Data type that Zilliz Cloud uses when indexing the values
"json_path": "words" # JSON path to the key
}
)

# Index a nested key within a JSON object
index_params.add_index(
field_name="dynamic_json", # JSON key name in the dynamic field
index_type="AUTOINDEX", # Must be set to AUTOINDEX for JSON path indexing
index_name="json_varchar_index", # Unique index name
params={
"json_cast_type": "varchar", # Data type that Zilliz Cloud uses when indexing the values
"json_path": "dynamic_json['varchar']" # JSON path to the nested key
}
)

# Index a deeply nested key
index_params.add_index(
field_name="dynamic_json",
index_type="AUTOINDEX", # Must be set to AUTOINDEX for JSON path indexing
index_name="json_nested_index", # Unique index name
params={
"json_cast_type": "double",
"json_path": "dynamic_json['nested']['value']"
}
)

型変換にJSONキャスト関数を使用する

動的フィールドキーに誤った形式の値が含まれている場合(例:文字列として保存されている数値)、キャスト関数を使用して変換できます。

# Convert a string to double before indexing
index_params.add_index(
field_name="dynamic_json", # JSON key name
index_type="AUTOINDEX",
index_name="json_string_price_index",
params={
"json_path": "dynamic_json['string_price']",
"json_cast_type": "double", # Must be the output type of the cast function
"json_cast_function": "STRING_TO_DOUBLE" # Case insensitive; convert string to double
}
)
📘Notes
  • 型変換に失敗した場合(例: 値 "not_a_number" を数値に変換できない場合)、その値はスキップされ、インデックス化されません。

  • キャスト関数のパラメータの詳細については、JSONフィールドを参照してください。

コレクションにインデックスを適用する

インデックスパラメータを定義したら、create_index() を使用してコレクションに適用できます。

client.create_index(
collection_name="my_collection",
index_params=index_params
)

動的フィールドキーによるフィルタリング

動的フィールドキーを持つエンティティを挿入した後、標準のフィルター式を使用してそれらをフィルターできます。

  • 非JSONキー(例:文字列、数値、ブール値)の場合、キー名を直接参照できます。

  • JSONオブジェクトを格納するキーの場合、ネストされた値にアクセスするにはJSONパス構文を使用します。

前のセクションの例のエンティティに基づいて、有効なフィルター式は次のとおりです。

filter = 'overview == "Great product"'                # Non-JSON key
filter = 'words >= 100' # Non-JSON key
filter = 'dynamic_json["nested"]["value"] < 50' # JSON object key

動的フィールドキーの取得: 検索またはクエリ結果で動的フィールドキーを返すには、フィルタリングと同じJSONパス構文を使用して、output_fieldsパラメータで明示的に指定する必要があります。

# Example: Include dynamic field keys in search results
results = client.search(
collection_name="my_collection",
data=[[0.1, 0.2, 0.3, 0.4, 0.5]],
filter=filter, # Filter expression defined earlier
limit=10,
output_fields=[
"overview", # Simple dynamic field key
"dynamic_json" # Nested JSON key
]
)
📘Notes

動的フィールドキーはデフォルトでは結果に含まれないため、明示的に要求する必要があります。

サポートされている演算子とフィルター式の全リストについては、フィルター検索を参照してください。

まとめ

ここまでで、スキーマで定義されていないキーを柔軟に保存およびインデックス化するために動的フィールドを使用する方法を学びました。動的フィールドキーが挿入されると、フィルター式で他のフィールドと同じように使用できます。特別な構文は必要ありません。

実際のアプリケーションでワークフローを完了するには、次のことも行う必要があります。

FAQ

動的フィールドキーを使用する代わりに、スキーマでフィールドを明示的に定義する必要があるのはどのような場合ですか?

動的フィールドキーを使用する代わりに、スキーマでフィールドを明示的に定義する必要があるのは次の場合です。

  • フィールドが output_fields に頻繁に含まれる場合: 明示的に定義されたフィールドのみが output_fields を介して効率的に取得されることが保証されます。動的フィールドキーは高頻度での取得には最適化されておらず、パフォーマンスのオーバーヘッドが発生する可能性があります。

  • フィールドが頻繁にアクセスまたはフィルターされる場合: 動的フィールドキーのインデックス作成は、固定スキーマフィールドと同様のフィルタリングパフォーマンスを提供できますが、明示的に定義されたフィールドは、より明確な構造と優れた保守性を提供します。

  • フィールドの動作を完全に制御する必要がある場合: 明示的なフィールドは、スキーマレベルの制約、検証、およびより明確な型付けをサポートしており、データの整合性と一貫性を管理するのに役立ちます。

  • インデックス作成の不整合を避けたい場合: 動的フィールドキーのデータは、型や構造の不整合が発生しやすくなります。固定スキーマを使用すると、特にインデックス作成やキャストを使用する予定がある場合に、データの品質を確保するのに役立ちます。

異なるデータ型を持つ同じ動的フィールドキーに複数のインデックスを作成できますか?

いいえ、JSONパスごとに1つのインデックスのみ作成できます。動的フィールドキーに混合型の値 (例: 一部の文字列と一部の数値) が含まれている場合でも、そのパスをインデックス化するときは単一の json_cast_type を選択する必要があります。異なる型を持つ同じキーに複数のインデックスを作成することは、現時点ではサポートされていません。

動的フィールドキーをインデックス化する際に、データキャストが失敗した場合はどうなりますか?

動的フィールドキーにインデックスを作成し、データキャストが失敗した場合 (例: double にキャストされるはずの値が "abc" のような非数値文字列である場合)、それらの特定の値はインデックス作成中にサイレントにスキップされます。それらはインデックスに表示されないため、インデックスに依存するフィルターベースの検索またはクエリ結果には返されません

これにはいくつかの重要な意味があります。

  • フルスキャンへのフォールバックなし: ほとんどのエンティティが正常にインデックス化されている場合、フィルタリングクエリは完全にインデックスに依存します。キャストが失敗したエンティティは、論理的にフィルター条件と一致する場合でも、結果セットから除外されます。

  • 検索精度のリスク: データ品質が一貫していない大規模なデータセット (特に動的フィールドキー) では、この動作により予期しない結果の欠落が発生する可能性があります。インデックスを作成する前に、一貫性のある有効なデータ形式を確保することが重要です。

  • キャスト関数の慎重な使用: インデックス作成中に文字列を数値に変換するために json_cast_function を使用する場合、文字列値が確実に変換可能であることを確認してください。json_cast_type と実際の変換された型の不一致は、エラーまたはスキップされたエントリにつながります。

クエリがインデックス化されたキャスト型とは異なるデータ型を使用している場合はどうなりますか?

クエリが、インデックスで使用されたものとは異なるデータ型を使用して動的フィールドキーを比較する場合 (例: インデックスが double にキャストされたときに文字列比較でクエリする場合)、システムはインデックスを使用しないため、可能な場合にのみフルスキャンにフォールバックする可能性があります。最高のパフォーマンスと精度を得るには、クエリの型がインデックス作成時に使用された json_cast_type と一致していることを確認してください。