メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

配列 Field

ARRAYフィールドは、同じデータ型の要素の順序付きセットを格納します。

以下は、ARRAYフィールドがデータを格納する方法の例です。

{
"tags": ["pop", "rock", "classic"],
"ratings": [5, 4, 3]
}

制限

  • デフォルト値: ARRAY フィールドはデフォルト値をサポートしません。ただし、nullable 属性を True に設定して NULL 値を許容することができます。詳細については、NULL許容 & デフォルト値 を参照してください。

  • データ型: ARRAY フィールド内のすべての要素は、同じデータ型を共有する必要があります。これは element_type パラメーターで定義されます。element_typeVARCHAR に設定する場合は、配列要素の max_length も指定する必要があります。element_type は、任意のスカラーデータ型、JSON、および STRUCT を受け入れます。

  • 配列容量: ARRAY フィールド内の要素数は、配列作成時に max_capacity で指定された最大容量以下である必要があります。値は 1 から 4096 の範囲内の整数である必要があります。

  • 文字列処理: 配列 フィールド内の文字列値は、意味的なエスケープや変換なしにそのまま保存されます。例えば、'a"b'"a'b"'a\'b'、および "a\"b" は入力されたとおりに保存されますが、'a'b' および "a"b" は無効な値と見なされます。

ARRAY フィールドの追加

Zilliz Cloud クラスターで ARRAY フィールドを使用するには、コレクションスキーマの作成時に関連するフィールド型を定義します。このプロセスには以下が含まれます:

  1. datatype をサポートされている配列データ型である ARRAY に設定します。

  2. element_type パラメーターを使用して、配列内の要素のデータ型を指定します。同じ配列内のすべての要素は同じデータ型である必要があります。

  3. max_capacity パラメーターを使用して、配列の最大容量、つまり含めることができる要素の最大数を定義します。

ARRAY フィールドを含むコレクションスキーマを定義する方法は以下の通りです:

📘Notes

スキーマの定義時に enable_dynamic_fields=True を設定した場合、Zilliz Cloud では事前に定義されていないスカラーフィールドの挿入が許可されます。ただし、これによりクエリと管理の複雑性が増し、パフォーマンスに影響を与える可能性があります。詳細については、ダイナミックフィールド を参照してください。

# Import necessary libraries
from pymilvus import MilvusClient, DataType

# Define server address
SERVER_ADDR = "YOUR_CLUSTER_ENDPOINT"

# Create a MilvusClient instance
client = MilvusClient(uri=SERVER_ADDR)

# Define the collection schema
schema = client.create_schema(
auto_id=False,
enable_dynamic_fields=True,
)

# Add \`tags\` and \`ratings\` ARRAY fields with nullable=True
schema.add_field(field_name="tags", datatype=DataType.ARRAY, element_type=DataType.VARCHAR, max_capacity=10, max_length=65535, nullable=True)
schema.add_field(field_name="ratings", datatype=DataType.ARRAY, element_type=DataType.INT64, max_capacity=5, nullable=True)
schema.add_field(field_name="pk", datatype=DataType.INT64, is_primary=True)
schema.add_field(field_name="embedding", datatype=DataType.FLOAT_VECTOR, dim=3)

インデックスパラメータの設定

インデックス作成は、検索およびクエリのパフォーマンスを向上させます。Zilliz Cloudクラスターでは、ベクトルフィールドに対してはインデックス作成が必須ですが、スカラーフィールドに対しては任意です。

次の例では、ベクトルフィールド embedding とARRAYフィールド tags の両方に AUTOINDEX インデックスタイプを使用してインデックスを作成しています。このタイプでは、Milvusがデータ型に基づいて最も適したインデックスを自動的に選択します。

# Set index params

index_params = client.prepare_index_params()

# Index \`age\` with AUTOINDEX
index_params.add_index(
field_name="tags",
index_type="AUTOINDEX",
index_name="tags_index"
)

# Index \`embedding\` with AUTOINDEX and specify similarity metric type
index_params.add_index(
field_name="embedding",
index_type="AUTOINDEX", # Use automatic indexing to simplify complex index settings
metric_type="COSINE" # Specify similarity metric type, options include L2, COSINE, or IP
)

コレクションの作成

スキーマとインデックスが定義されたら、ARRAYフィールドを含むコレクションを作成します。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

コレクションを作成した後、ARRAYフィールドを含むデータを挿入できます。

# Sample data
data = [
{
"tags": ["pop", "rock", "classic"],
"ratings": [5, 4, 3],
"pk": 1,
"embedding": [0.12, 0.34, 0.56]
},
{
"tags": None, # Entire ARRAY is null
"ratings": [4, 5],
"pk": 2,
"embedding": [0.78, 0.91, 0.23]
},
{ # The tags field is completely missing
"ratings": [9, 5],
"pk": 3,
"embedding": [0.18, 0.11, 0.23]
}
]

client.insert(
collection_name="my_collection",
data=data
)

フィルター式を使用したクエリ

エンティティを挿入した後、指定されたフィルター式に一致するエンティティを取得するには query メソッドを使用します。

tags が null でないエンティティを取得するには:

# Query to exclude entities where \`tags\` is not null

filter = 'tags IS NOT NULL'

res = client.query(
collection_name="my_collection",
filter=filter,
output_fields=["tags", "ratings", "pk"]
)

print(res)

# Example output:
# data: [
# "{'tags': ['pop', 'rock', 'classic'], 'ratings': [5, 4, 3], 'pk': 1}"
# ]

ratings の最初の要素の値が 4 より大きいエンティティを取得するには、次のとおりです:

filter = 'ratings[0] > 4'

res = client.query(
collection_name="my_collection",
filter=filter,
output_fields=["tags", "ratings", "embedding"]
)

print(res)

# Example output:
# data: [
# "{'tags': ['pop', 'rock', 'classic'], 'ratings': [5, 4, 3], 'embedding': [0.12, 0.34, 0.56], 'pk': 1}",
# "{'tags': None, 'ratings': [9, 5], 'embedding': [0.18, 0.11, 0.23], 'pk': 3}"
# ]

フィルター式を用いたベクトル検索

基本的なスカラー型フィールドによるフィルタリングに加えて、ベクトル類似性検索とスカラー型フィールドのフィルターを組み合わせることもできます。たとえば、以下のコードはベクトル検索にスカラー型フィールドのフィルターを追加する方法を示しています。

filter = 'tags[0] == "pop"'

res = client.search(
collection_name="my_collection",
data=[[0.3, -0.6, 0.1]],
limit=5,
search_params={"params": {"nprobe": 10}},
output_fields=["tags", "ratings", "embedding"],
filter=filter
)

print(res)

# Example output:
# data: [
# "[{'id': 1, 'distance': -0.2479381263256073, 'entity': {'tags': ['pop', 'rock', 'classic'], 'ratings': [5, 4, 3], 'embedding': [0.11999999731779099, 0.3400000035762787, 0.5600000023841858]}}]"
# ]

さらに、Zilliz Cloud は高度な配列フィルタリング演算子として ARRAY_CONTAINSARRAY_CONTAINS_ALLARRAY_CONTAINS_ANY、および ARRAY_LENGTH をサポートしており、クエリ機能をさらに強化します。詳細については、配列演算子 を参照してください。