メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

配列 Field

ARRAYフィールドは、同じデータ型の要素の順序付きセットを格納します。

以下は、ARRAYフィールドがデータを格納する方法の例です。

{
"tags": ["pop", "rock", "classic"],
"ratings": [5, 4, 3]
}

制限s

  • デフォルト値: ARRAYフィールドはデフォルト値をサポートしていません。ただし、nullable属性をTrueに設定することで、NULL値を許容できます。詳細については、NULL許容 & Defaultを参照してください。

  • データ Type: ARRAYフィールド内のすべての要素は同じデータ型を持つ必要があり、これはelement_typeパラメータで定義されます。element_typeVARCHARに設定されている場合、配列要素のmax_lengthも指定する必要があります。element_typeには、任意のスカラーデータ型、JSON、およびSTRUCTを指定できます。

  • 配列容量: ARRAYフィールド内の要素数は、作成時にmax_capacityで定義された最大容量以下である必要があります。この値は1から4096の範囲内の整数でなければなりません。

  • 文字列処理: 配列フィールド内の文字列値は、セマンティックなエスケープや変換を行わずにそのまま格納されます。たとえば、'a"b'"a'b"'a\'b'、および"a\"b"は入力された通りに格納されますが、'a'b'および"a"b"は無効な値とみなされます。

Add ARRAY field

Zilliz CloudクラスターでARRAYフィールドを使用するには、コレクションスキーマを作成する際に関連するフィールドタイプを定義します。このプロセスには以下の操作が含まれます:

  1. datatypeをサポートされている配列データ型であるARRAYに設定します。

  2. element_typeパラメータを使用して、配列内の要素のデータ型を指定します。同一の配列内にあるすべての要素は同じデータ型でなければなりません。

  3. max_capacityパラメータを使用して、配列の最大容量(つまり、格納可能な最大要素数)を定義します。

以下は、ARRAYフィールドを含むコレクションスキーマを定義する方法の例です:

📘Notes

スキーマ定義時にenable_dynamic_fields=Trueを設定すると、Zilliz Cloudでは事前に定義されていないスカラーフィールドの挿入が可能になります。ただし、これによりクエリや管理の複雑さが増し、パフォーマンスに影響を与える可能性があります。詳細については、Dynamic Fieldを参照してください。

# Import necessary libraries
from pymilvus import MilvusClient, DataType

# Define server address
SERVER_ADDR = "YOUR_CLUSTER_ENDPOINT"

# Create a MilvusClient instance
client = MilvusClient(uri=SERVER_ADDR)

# Define the collection schema
schema = client.create_schema(
auto_id=False,
enable_dynamic_fields=True,
)

# Add `tags` and `ratings` ARRAY fields with nullable=True
schema.add_field(field_name="tags", datatype=DataType.ARRAY, element_type=DataType.VARCHAR, max_capacity=10, max_length=65535, nullable=True)
schema.add_field(field_name="ratings", datatype=DataType.ARRAY, element_type=DataType.INT64, max_capacity=5, nullable=True)
schema.add_field(field_name="pk", datatype=DataType.INT64, is_primary=True)
schema.add_field(field_name="embedding", datatype=DataType.FLOAT_VECTOR, dim=3)

インデックスパラメータの設定

インデックス作成は、検索およびクエリのパフォーマンスを向上させます。Zilliz Cloudクラスターでは、ベクトルフィールドに対してはインデックス作成が必須ですが、スカラーフィールドに対しては任意です。

次の例では、ベクトルフィールド embedding とARRAYフィールド tags の両方に AUTOINDEX インデックスタイプを使用してインデックスを作成しています。このタイプでは、Milvusがデータ型に基づいて最も適したインデックスを自動的に選択します。

# Set index params

index_params = client.prepare_index_params()

# Index `age` with AUTOINDEX
index_params.add_index(
field_name="tags",
index_type="AUTOINDEX",
index_name="tags_index"
)

# Index `embedding` with AUTOINDEX and specify similarity metric type
index_params.add_index(
field_name="embedding",
index_type="AUTOINDEX", # Use automatic indexing to simplify complex index settings
metric_type="COSINE" # Specify similarity metric type, options include L2, COSINE, or IP
)

コレクションの作成

スキーマとインデックスが定義されたら、ARRAYフィールドを含むコレクションを作成します。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

コレクションを作成した後、ARRAYフィールドを含むデータを挿入できます。

# Sample data
data = [
{
"tags": ["pop", "rock", "classic"],
"ratings": [5, 4, 3],
"pk": 1,
"embedding": [0.12, 0.34, 0.56]
},
{
"tags": None, # Entire ARRAY is null
"ratings": [4, 5],
"pk": 2,
"embedding": [0.78, 0.91, 0.23]
},
{ # The tags field is completely missing
"ratings": [9, 5],
"pk": 3,
"embedding": [0.18, 0.11, 0.23]
}
]

client.insert(
collection_name="my_collection",
data=data
)

フィルター式を使用したクエリ

エンティティを挿入した後、指定されたフィルター式に一致するエンティティを取得するには query メソッドを使用します。

tags が null でないエンティティを取得するには:

# Query to exclude entities where `tags` is not null

filter = 'tags IS NOT NULL'

res = client.query(
collection_name="my_collection",
filter=filter,
output_fields=["tags", "ratings", "pk"]
)

print(res)

# Example output:
# data: [
# "{'tags': ['pop', 'rock', 'classic'], 'ratings': [5, 4, 3], 'pk': 1}"
# ]

ratings の最初の要素の値が 4 より大きいエンティティを取得するには、次のとおりです:

filter = 'ratings[0] > 4'

res = client.query(
collection_name="my_collection",
filter=filter,
output_fields=["tags", "ratings", "embedding"]
)

print(res)

# Example output:
# data: [
# "{'tags': ['pop', 'rock', 'classic'], 'ratings': [5, 4, 3], 'embedding': [0.12, 0.34, 0.56], 'pk': 1}",
# "{'tags': None, 'ratings': [9, 5], 'embedding': [0.18, 0.11, 0.23], 'pk': 3}"
# ]

フィルター式を用いたベクトル検索

基本的なスカラー型フィールドによるフィルタリングに加えて、ベクトル類似性検索とスカラー型フィールドのフィルターを組み合わせることもできます。たとえば、以下のコードはベクトル検索にスカラー型フィールドのフィルターを追加する方法を示しています。

filter = 'tags[0] == "pop"'

res = client.search(
collection_name="my_collection",
data=[[0.3, -0.6, 0.1]],
limit=5,
search_params={"params": {"nprobe": 10}},
output_fields=["tags", "ratings", "embedding"],
filter=filter
)

print(res)

# Example output:
# data: [
# "[{'id': 1, 'distance': -0.2479381263256073, 'entity': {'tags': ['pop', 'rock', 'classic'], 'ratings': [5, 4, 3], 'embedding': [0.11999999731779099, 0.3400000035762787, 0.5600000023841858]}}]"
# ]

さらに、Zilliz Cloud は高度な配列フィルタリング演算子(ARRAY_CONTAINSARRAY_CONTAINS_ALLARRAY_CONTAINS_ANY、および ARRAY_LENGTH)をサポートしており、クエリ機能をさらに強化します。詳細については、ARRAY Operators を参照してください。