メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

数字フィールド

数値フィールドは、数値を格納するスカラーフィールドです。これらの値は、整数(整数)または10進数(浮動小数点数)である場合があります。通常、量、測定値、または数学的に処理する必要があるデータを表すために使用されます。

以下の表は、Zilliz Cloudクラスターで利用可能な数値フィールドのデータ型を説明しています。

フィールドタイプ

説明する

BOOL

バイナリ状態を記述するために適した、trueまたはfalseを格納するためのブール型。

INT 8

小さな範囲の整数データを格納するのに適した8ビット整数。

INT 16

中程度の整数データ用の16ビット整数。

INT 32

32ビット整数は、製品数量やユーザーIDなどの一般的な整数データストレージに最適です。

INT 64

タイムスタンプや識別子のような大規模なデータを格納するのに適した64ビット整数。

フロート

定格や温度などの一般的な精度が必要なデータ用の32ビット浮動小数点数。

ダブル

財務情報や科学計算などの高精度データ用の64ビット倍精度浮動小数点数。

数値フィールドを宣言するには、利用可能な数値datatypeのいずれかにデータ型を設定するだけです。例えば、整数フィールドの場合はDataType. INT64、浮動小数点フィールドの場合はDataType.FLOATとなります。

📘ノート

Zilliz Cloudは、数値フィールドのnull値とデフォルト値をサポートしています。これらの機能を有効にするには、nullableTrueに設定し、default_valueを数値に設定します。詳細については、Nullableデフォルトを参照してください。

数値フィールドを追加

数値データを保存するには、コレクションスキーマに数値フィールドを定義します。以下は、2つの数値フィールドを持つコレクションスキーマの例です。

  • age:整数データを格納し、null値を許可し、デフォルト値は18です。

  • price:浮動小数点データを格納し、null値を許可しますが、デフォルト値はありません。

📘ノート

スキーマを定義する際にenable_dynamic_fields=Trueを設定した場合、Zilliz Cloudでは、事前に定義されていないスカラーフィールドを挿入することができます。ただし、これによりクエリや管理が複雑になり、パフォーマンスに影響を与える可能性があります。詳細については、ダイナミックフィールドを参照してください。

# Import necessary libraries
from pymilvus import MilvusClient, DataType

# Define server address
SERVER_ADDR = "YOUR_CLUSTER_ENDPOINT"

# Create a MilvusClient instance
client = MilvusClient(uri=SERVER_ADDR)

# Define the collection schema
schema = client.create_schema(
auto_id=False,
enable_dynamic_fields=True,
)

# Add an INT64 field `age` that supports null values with default value 18
schema.add_field(field_name="age", datatype=DataType.INT64, nullable=True, default_value=18)
# Add a FLOAT field `price` that supports null values without default value
schema.add_field(field_name="price", datatype=DataType.FLOAT, nullable=True)
schema.add_field(field_name="pk", datatype=DataType.INT64, is_primary=True)
schema.add_field(field_name="embedding", datatype=DataType.FLOAT_VECTOR, dim=3)

インデックスパラメータの設定

インデックス作成は、検索とクエリのパフォーマンスを向上させるのに役立ちます。Zilliz Cloudクラスタでは、ベクトルフィールドではインデックス作成が必須ですが、スカラーフィールドではオプションです。

以下の例では、ベクトルフィールドのembeddingとスカラーフィールドのageに関するインデックスを、AUTOINDEXインデックスタイプを使用して作成します。このタイプを使用すると、Milvusはデータ型に基づいて最適なインデックスを自動的に選択します。

# Set index params

index_params = client.prepare_index_params()

# Index `age` with AUTOINDEX
index_params.add_index(
field_name="age",
index_type="AUTOINDEX",
index_name="age_index"
)

# Index `embedding` with AUTOINDEX and specify similarity metric type
index_params.add_index(
field_name="embedding",
index_type="AUTOINDEX", # Use automatic indexing to simplify complex index settings
metric_type="COSINE" # Specify similarity metric type, options include L2, COSINE, or IP
)

コレクションを作成

スキーマとインデックスが定義されたら、数値フィールドを含むコレクションを作成してください。

# Create Collection
client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

コレクションを作成した後、スキーマに一致するエンティティを挿入してください。

# Sample data
data = [
{"age": 25, "price": 99.99, "pk": 1, "embedding": [0.1, 0.2, 0.3]},
{"age": 30, "pk": 2, "embedding": [0.4, 0.5, 0.6]}, # `price` field is missing, which should be null
{"age": None, "price": None, "pk": 3, "embedding": [0.2, 0.3, 0.1]}, # `age` should default to 18, `price` is null
{"age": 45, "price": None, "pk": 4, "embedding": [0.9, 0.1, 0.4]}, # `price` is null
{"age": None, "price": 59.99, "pk": 5, "embedding": [0.8, 0.5, 0.3]}, # `age` should default to 18
{"age": 60, "price": None, "pk": 6, "embedding": [0.1, 0.6, 0.9]} # `price` is null
]

client.insert(
collection_name="my_collection",
data=data
)

フィルタ式を使用したクエリ

エンティティを挿入した後、queryメソッドを使用して、指定したフィルター式に一致するエンティティを取得します。

大なり30のageのエンティティを取得するには:

filter = 'age > 30'

res = client.query(
collection_name="my_collection",
filter=filter,
output_fields=["age", "price", "pk"]
)

print(res)

# Example output:
# data: [
# "{'age': 45, 'price': None, 'pk': 4}",
# "{'age': 60, 'price': None, 'pk': 6}"
# ]

価格がnullのエンティティを取得するには:

filter = 'price is null'

res = client.query(
collection_name="my_collection",
filter=filter,
output_fields=["age", "price", "pk"]
)

print(res)

# Example output:
# data: [
# "{'age': 30, 'price': None, 'pk': 2}",
# "{'age': 18, 'price': None, 'pk': 3}",
# "{'age': 45, 'price': None, 'pk': 4}",
# "{'age': 60, 'price': None, 'pk': 6}"
# ]

ageの値が18のエンティティを取得するには、以下の式を使用します。ageのデフォルト値が18であるため、期待される結果には、ageが明示的に18に設定されているか、ageがnullに設定されているエンティティが含まれる必要があります。

filter = 'age == 18'

res = client.query(
collection_name="my_collection",
filter=filter,
output_fields=["age", "price", "pk"]
)

print(res)

# Example output:
# data: [
# "{'age': 18, 'price': None, 'pk': 3}",
# "{'age': 18, 'price': 59.99, 'pk': 5}"
# ]

フィルタ式を用いたベクトル検索

基本的な数値フィールドフィルタリングに加えて、ベクトル類似検索と数値フィールドフィルタを組み合わせることができます。例えば、次のコードはベクトル検索に数値フィールドフィルタを追加する方法を示しています。

filter = "25 <= age <= 35"

res = client.search(
collection_name="my_collection",
data=[[0.3, -0.6, 0.1]],
limit=5,
search_params={"params": {"nprobe": 10}},
output_fields=["age","price"],
filter=filter
)

print(res)

# Example output:
# data: [
# "[{'id': 2, 'distance': -0.2016308456659317, 'entity': {'age': 30, 'price': None}}, {'id': 1, 'distance': -0.23643313348293304, 'entity': {'age': 25, 'price': 99.98999786376953}}]"
# ]

この例では、まずクエリベクトルを定義し、検索中に25<=age<=35というフィルタ条件を追加します。これにより、検索結果がクエリベクトルに似ているだけでなく、指定された年齢範囲を満たすことが保証されます。詳細については、フィルタリングを参照してください。