メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

バイナリベクトル

バイナリベクトルは、従来の高次元浮動小数点ベクトルを 0 と 1 のみで構成されるバイナリベクトルに変換する特殊なデータ表現形式です。この変換により、ベクトルのサイズが圧縮され、ストレージおよび計算コストが削減されると同時に、セマンティック情報も保持されます。非重要な特徴量において精度がそれほど重要でない場合、バイナリベクトルは元の浮動小数点ベクトルの大部分の完全性と有用性を効果的に維持できます。

バイナリベクトルは、計算効率やストレージ最適化が極めて重要な状況で幅広く活用されています。検索エンジンやレコメンデーションシステムなどの大規模 AI システムでは、膨大なデータをリアルタイムで処理することが鍵となります。ベクトルのサイズを小さくすることで、バイナリベクトルはレイテンシや計算コストを大幅に削減しつつ、精度を大きく犠牲にすることなく処理を可能にします。また、メモリや処理能力が制限されたモバイルデバイスや組込みシステムなどのリソース制約環境でも有効です。バイナリベクトルを活用することで、こうした制限された環境でも高性能を維持しながら複雑な AI 機能を実装できます。

概要

バイナリベクトルは、画像・テキスト・音声などの複雑なオブジェクトを固定長のバイナリ値にエンコードする手法です。Zilliz Cloud クラスタでは、バイナリベクトルは通常、ビット配列またはバイト配列として表現されます。たとえば、8次元のバイナリベクトルは [1, 0, 1, 1, 0, 0, 1, 0] のように表されます。

以下の図は、テキストコンテンツにおけるキーワードの有無をバイナリベクトルで表現する方法を示しています。この例では、10次元のバイナリベクトルを使って2つの異なるテキスト(テキスト1 および テキスト2)を表現しており、各次元が語彙内の単語に対応しています。1 はその単語がテキスト内に存在することを、0 は存在しないことを示します。

TuIGwtyEkh9g04bvo0icsWdynBd

バイナリベクトルには以下のような特徴があります。

  • 効率的なストレージ: 各次元は 1 ビットしか必要とせず、ストレージ容量を大幅に削減できます。

  • 高速な計算: XOR などのビット演算を用いて、ベクトル間の類似度を迅速に計算できます。

  • 固定長: ベクトルの長さは元のテキストの長さにかかわらず一定であり、インデックス作成や検索が容易になります。

  • シンプルで直感的: キーワードの有無を直接反映するため、特定の専門的な検索タスクに適しています。

バイナリベクトルはさまざまな方法で生成できます。テキスト処理では、事前に定義された語彙に基づき、単語の有無に応じて対応するビットを設定します。画像処理では、知覚的ハッシュアルゴリズム(pHash など)を用いて画像のバイナリ特徴量を生成します。機械学習アプリケーションでは、モデルの出力を二値化してバイナリベクトル表現を得ることも可能です。

バイナリベクトル化後、データは Zilliz Cloud クラスタに保存され、管理およびベクトル検索が可能になります。以下の図はその基本的なプロセスを示しています。

TF1uw4AQVhFdmBbrhyVcJO6WnXe

📘Notes

バイナリベクトルは特定のシナリオで優れた性能を発揮しますが、表現力に制限があるため、複雑なセマンティック関係を捉えるのは困難です。そのため、実際のユースケースでは、効率性と表現力のバランスを取るために、バイナリベクトルを他のベクトルタイプと併用することがよくあります。詳細については、Dense Vector および Sparse Vector を参照してください。

バイナリベクトルの使用

ベクトルフィールドの追加

Zilliz Cloud クラスタでバイナリベクトルを使用するには、コレクション作成時にバイナリベクトルを格納するためのベクトルフィールドを定義する必要があります。この手順には以下が含まれます。

  1. datatype をサポートされているバイナリベクトルのデータ型、すなわち BINARY_VECTOR に設定します。

  2. dim パラメータを使用してベクトルの次元数を指定します。ただし、バイナリベクトルは挿入時にバイト配列に変換される必要があるため、dim は必ず 8 の倍数である必要があります。8 個のブール値(0 または 1)が 1 バイトにパックされます。たとえば、dim=128 の場合、挿入には 16 バイトの配列が必要です。

from pymilvus import MilvusClient, DataType

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

schema = client.create_schema(
auto_id=True,
enable_dynamic_fields=True,
)

schema.add_field(field_name="pk", datatype=DataType.VARCHAR, is_primary=True, max_length=100)
schema.add_field(field_name="binary_vector", datatype=DataType.BINARY_VECTOR, dim=128)

この例では、バイナリベクトルを格納するための binary_vector という名前のベクトルフィールドが追加されています。このフィールドのデータ型は BINARY_VECTOR で、次元数は 128 です。

ベクトルフィールドのインデックスパラメータを設定する

検索を高速化するには、バイナリベクトルフィールドに対してインデックスを作成する必要があります。インデックス作成により、大規模なベクトルデータの検索効率を大幅に向上させることができます。

index_params = client.prepare_index_params()

index_params.add_index(
field_name="binary_vector",
index_name="binary_vector_index",
index_type="AUTOINDEX",
metric_type="HAMMING"
)

上記の例では、binary_vector フィールドに対して binary_vector_index という名前のインデックスが作成され、インデックスタイプとして AUTOINDEX が使用されています。また、metric_typeHAMMING に設定されており、類似度測定にハミング距離が使用されることを示しています。

さらに、Zilliz Cloud はバイナリベクトル向けに他の類似度メトリックもサポートしています。詳細については、メトリックタイプs を参照してください。

Create collection

バイナリベクトルとインデックスの設定が完了したら、バイナリベクトルを含むコレクションを作成します。以下の例では、create_collection メソッドを使用して my_collection という名前のコレクションを作成しています。

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

データの挿入

コレクションを作成した後、insert メソッドを使用してバイナリベクトルを含むデータを追加します。バイナリベクトルはバイト配列の形式で提供する必要があり、各バイトは8つのブール値を表します。

たとえば、128次元のバイナリベクトルの場合、16バイトの配列が必要です(128ビット ÷ 8ビット/バイト = 16バイト)。以下にデータ挿入の例を示します:

def convert_bool_list_to_bytes(bool_list):
if len(bool_list) % 8 != 0:
raise ValueError("The length of a boolean list must be a multiple of 8")

byte_array = bytearray(len(bool_list) // 8)
for i, bit in enumerate(bool_list):
if bit == 1:
index = i // 8
shift = i % 8
byte_array[index] |= (1 << shift)
return bytes(byte_array)

bool_vectors = [
[1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0] + [0] * 112,
[0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1] + [0] * 112,
]

data = [{"binary_vector": convert_bool_list_to_bytes(bool_vector)} for bool_vector in bool_vectors]

client.insert(
collection_name="my_collection",
data=data
)

類似性検索は Zilliz Cloud クラスターの中核機能の一つであり、ベクトル間の距離に基づいてクエリベクトルに最も類似したデータを高速に検索できます。バイナリベクトルを使用して類似性検索を実行するには、クエリベクトルと検索パラメータを準備し、search メソッドを呼び出します。

検索操作時には、バイナリベクトルもバイト配列の形式で提供する必要があります。クエリベクトルの次元数が dim 定義時に指定した次元数と一致していること、および8つのブール値ごとに1バイトに変換されていることを確認してください。

search_params = {
"params": {"nprobe": 10}
}

query_bool_list = [1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0] + [0] * 112
query_vector = convert_bool_list_to_bytes(query_bool_list)

res = client.search(
collection_name="my_collection",
data=[query_vector],
anns_field="binary_vector",
search_params=search_params,
limit=5,
output_fields=["pk"]
)

print(res)

# Output
# data: ["[{'id': '453718927992172268', 'distance': 10.0, 'entity': {'pk': '453718927992172268'}}]"]

類似度検索パラメータの詳細については、基本的なANN検索を参照してください。