バージョン: User Guides (BYOC)

[説明] このページは機械翻訳された日本語版です。内容に誤りがございましたら、報告していただけると助かります。

バイナリベクトル
Contact Sales to Enable BYOC

バイナリベクトルは、従来の高次元浮動小数点ベクトルを0と1のみを含むバイナリベクトルに変換する特殊なデータ表現形式です。この変換により、ベクトルのサイズが圧縮されるだけでなく、セマンティック情報を維持したままストレージと計算コストを削減できます。非クリティカル機能の精度が必須でない場合、バイナリベクトルは元の浮動小数点ベクトルの大部分の整合性と有用性を効果的に維持できます。

バイナリベクトルは広範囲な応用範囲を持ち、特に計算効率とストレージ最適化が重要な状況で有用です。検索エンジンやレコメンドシステムなどの大規模AIシステムでは、大量データのリアルタイム処理が鍵となります。ベクトルのサイズを削減することで、バイナリベクトルは精度を大きく犠牲にすることなくレイテンシと計算コストを削減するのに役立ちます。さらに、メモリと処理能力が限られているモバイルデバイスや組み込みシステムなど、リソース制約のある環境でもバイナリベクトルは有用です。バイナリベクトルを使用することで、これらの制限された環境でも高性能を維持しながら複雑なAI機能を実装できます。

概要

バイナリベクトルは、画像、テキスト、音声のような複雑なオブジェクトを固定長のバイナリ値にエンコードする方法です。Zilliz Cloudクラスターでは、バイナリベクトルは通常ビット配列またはバイト配列として表現されます。たとえば、8次元のバイナリベクトルは[1, 0, 1, 1, 0, 0, 1, 0]のように表現できます。

以下の図は、バイナリベクトルがテキストコンテンツ内のキーワードの存在をどのように表現するかを示しています。この例では、10次元のバイナリベクトルを使用して2つの異なるテキスト（テキスト1およびテキスト2）を表現しており、各次元は語彙の単語に対応しています：1はテキスト内に単語が存在することを示し、0はその単語が存在しないことを示します。

TuIGwtyEkh9g04bvo0icsWdynBd

バイナリベクトルは以下の特徴を持ちます：

効率的なストレージ： 各次元は1ビットのストレージのみを必要とし、ストレージ容量を大幅に削減します。
高速な計算： XORのようなビット演算を使用することにより、ベクトル間の類似性を迅速に計算できます。
固定長： 元のテキスト長に関係なく、ベクトルの長さは一定であるため、インデックス作成と検索が容易になります。
シンプルで直感的： キーワードの存在を直接反映するため、特定の特殊な検索タスクに適しています。

バイナリベクトルはさまざまな方法で生成できます。テキスト処理では、事前定義された語彙を使用して単語の存在に基づいて対応するビットを設定できます。画像処理では、知覚的ハッシングアルゴリズム（pHashなど）を使用して画像のバイナリ特徴を生成できます。機械学習アプリケーションでは、モデル出力をバイナリ化してバイナリベクトル表現を取得できます。

バイナリベクトル化後、データはZilliz Cloudクラスターに保存され、管理およびベクトル検索に使用できます。以下の図は基本的なプロセスを示しています。

TF1uw4AQVhFdmBbrhyVcJO6WnXe

📘注釈

バイナリベクトルは特定のシナリオで優れた性能を発揮しますが、表現能力には制限があり、複雑なセマンティック関係を捉えることが困難です。したがって、実際のシナリオでは、効率性と表現性のバランスを取るために、バイナリベクトルが他のベクトルタイプと併用されることがよくあります。詳細については、密ベクトルおよびスパースベクトルを参照してください。

バイナリベクトルの使用

ベクトルフィールドの追加

Zilliz Cloudクラスターでバイナリベクトルを使用するには、まずコレクションを作成する際にバイナリベクトルを保存するためのベクトルフィールドを定義します。このプロセスには以下が含まれます：

datatypeをサポートされているバイナリベクトルデータ型、つまりBINARY_VECTORに設定します。
dimパラメータを使用してベクトルの次元を指定します。dimは8の倍数である必要に注意してください。バイナリベクトルは挿入時にバイト配列に変換する必要があるためです。すべての8つの真偽値（0または1）は1バイトにパッキングされます。たとえば、dim=128の場合、挿入には16バイトの配列が必要です。

Python
Java
NodeJS
Go
cURL

from pymilvus import MilvusClient, DataType

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

schema = client.create_schema(
    auto_id=True,
    enable_dynamic_fields=True,
)

schema.add_field(field_name="pk", datatype=DataType.VARCHAR, is_primary=True, max_length=100)
schema.add_field(field_name="binary_vector", datatype=DataType.BINARY_VECTOR, dim=128)

import io.milvus.v2.client.ConnectConfig;
import io.milvus.v2.client.MilvusClientV2;

import io.milvus.v2.common.DataType;
import io.milvus.v2.service.collection.request.AddFieldReq;
import io.milvus.v2.service.collection.request.CreateCollectionReq;

MilvusClientV2 client = new MilvusClientV2(ConnectConfig.builder()
        .uri("YOUR_CLUSTER_ENDPOINT")
        .build());

CreateCollectionReq.CollectionSchema schema = client.createSchema();
schema.setEnableDynamicField(true);
schema.addField(AddFieldReq.builder()
        .fieldName("pk")
        .dataType(DataType.VarChar)
        .isPrimaryKey(true)
        .autoID(true)
        .maxLength(100)
        .build());

schema.addField(AddFieldReq.builder()
        .fieldName("binary_vector")
        .dataType(DataType.BinaryVector)
        .dimension(128)
        .build());

import { DataType } from "@zilliz/milvus2-sdk-node";

schema.push({
  name: "binary vector",
  data_type: DataType.BinaryVector,
  dim: 128,
});

import (
    "context"
    "fmt"

    "github.com/milvus-io/milvus/client/v2/column"
    "github.com/milvus-io/milvus/client/v2/entity"
    "github.com/milvus-io/milvus/client/v2/index"
    "github.com/milvus-io/milvus/client/v2/milvusclient"
)

ctx, cancel := context.WithCancel(context.Background())
defer cancel()

milvusAddr := "YOUR_CLUSTER_ENDPOINT"
client, err := milvusclient.New(ctx, &milvusclient.ClientConfig{
    Address: milvusAddr,
})
if err != nil {
    fmt.Println(err.Error())
    // エラー処理
}
defer client.Close(ctx)

schema := entity.NewSchema()
schema.WithField(entity.NewField().
    WithName("pk").
    WithDataType(entity.FieldTypeVarChar).
    WithIsAutoID(true).
    WithIsPrimaryKey(true).
    WithMaxLength(100),
).WithField(entity.NewField().
    WithName("binary_vector").
    WithDataType(entity.FieldTypeBinaryVector).
    WithDim(128),
)

export primaryField='{
    "fieldName": "pk",
    "dataType": "VarChar",
    "isPrimary": true,
    "elementTypeParams": {
        "max_length": 100
    }
}'

export vectorField='{
    "fieldName": "binary_vector",
    "dataType": "BinaryVector",
    "elementTypeParams": {
        "dim": 128
    }
}'

export schema="{
    \"autoID\": true,
    \"fields\": [
        $primaryField,
        $vectorField
    ],
    \"enableDynamicField\": true
}"

この例では、バイナリベクトルを保存するためのbinary_vectorという名前のベクトルフィールドが追加されています。このフィールドのデータ型はBINARY_VECTORで、次元は128です。

ベクトルフィールドのインデックスパラメータの設定

検索を高速化するために、バイナリベクトルフィールドに対してインデックスを作成する必要があります。インデックス作成は、大規模ベクトルデータの検索効率を大幅に向上させます。

Python
Java
NodeJS
Go
cURL

index_params = client.prepare_index_params()

index_params.add_index(
    field_name="binary_vector",
    index_name="binary_vector_index",
    index_type="AUTOINDEX",
    metric_type="HAMMING"
)

import io.milvus.v2.common.IndexParam;
import java.util.*;

List<IndexParam> indexParams = new ArrayList<>();
Map<String,Object> extraParams = new HashMap<>();

indexParams.add(IndexParam.builder()
        .fieldName("binary_vector")
        .indexType(IndexParam.IndexType.AUTOINDEX)
        .metricType(IndexParam.MetricType.HAMMING)
        .build());

import { MetricType, IndexType } from "@zilliz/milvus2-sdk-node";

const indexParams = {
  indexName: "binary_vector_index",
  field_name: "binary_vector",
  metric_type: MetricType.HAMMING,
  index_type: IndexType.AUTOINDEX
};

idx := index.NewAutoIndex(entity.HAMMING)
indexOption := milvusclient.NewCreateIndexOption("my_collection", "binary_vector", idx)

export indexParams='[
        {
            "fieldName": "binary_vector",
            "metricType": "HAMMING",
            "indexName": "binary_vector_index",
            "indexType": "AUTOINDEX"
        }
    ]'

上記の例では、binary_vectorフィールドに対してbinary_vector_indexという名前のインデックスが作成され、AUTOINDEXインデックスタイプが使用されています。metric_typeはHAMMINGに設定されており、類似性測定にハミング距離が使用されることを示しています。

さらに、Zilliz Cloudはバイナリベクトルの他の類似性メトリックもサポートしています。詳細については、メトリックタイプを参照してください。

コレクションの作成

バイナリベクトルとインデックス設定が完了すると、バイナリベクトルを含むコレクションを作成できます。以下の例では、create_collectionメソッドを使用してmy_collectionという名前のコレクションを作成します。

Python
Java
NodeJS
Go
cURL

client.create_collection(
    collection_name="my_collection",
    schema=schema,
    index_params=index_params
)

import io.milvus.v2.client.ConnectConfig;
import io.milvus.v2.client.MilvusClientV2;

MilvusClientV2 client = new MilvusClientV2(ConnectConfig.builder()
        .uri("YOUR_CLUSTER_ENDPOINT")
        .build());

CreateCollectionReq requestCreate = CreateCollectionReq.builder()
        .collectionName("my_collection")
        .collectionSchema(schema)
        .indexParams(indexParams)
        .build();
client.createCollection(requestCreate);

import { MilvusClient } from "@zilliz/milvus2-sdk-node";

const client = new MilvusClient({
    address: 'YOUR_CLUSTER_ENDPOINT'
});

await client.createCollection({
    collection_name: 'my_collection',
    schema: schema,
    index_params: indexParams
});

err = client.CreateCollection(ctx,
    milvusclient.NewCreateCollectionOption("my_collection", schema).
        WithIndexOptions(indexOption))
if err != nil {
    fmt.Println(err.Error())
    // エラー処理
}

curl --request POST \
--url "${CLUSTER_ENDPOINT}/v2/vectordb/collections/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Content-Type: application/json" \
-d "{
    \"collectionName\": \"my_collection\",
    \"schema\": $schema,
    \"indexParams\": $indexParams
}"

データの挿入

コレクションを作成した後、バイナリベクトルを含むデータを追加するためにinsertメソッドを使用します。バイナリベクトルはバイト配列の形式で提供する必要があることに注意してください。各バイトは8つの真偽値を表します。

たとえば、128次元のバイナリベクトルの場合、16バイトの配列が必要です（128ビット÷8ビット/バイト=16バイト）。以下はデータ挿入の例コードです：

Python
Java
NodeJS
Go
cURL

def convert_bool_list_to_bytes(bool_list):
    if len(bool_list) % 8 != 0:
        raise ValueError("The length of a boolean list must be a multiple of 8")

    byte_array = bytearray(len(bool_list) // 8)
    for i, bit in enumerate(bool_list):
        if bit == 1:
            index = i // 8
            shift = i % 8
            byte_array[index] |= (1 << shift)
    return bytes(byte_array)

bool_vectors = [
    [1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0] + [0] * 112,
    [0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1] + [0] * 112,
]

data = [{"binary_vector": convert_bool_list_to_bytes(bool_vector)} for bool_vector in bool_vectors]

client.insert(
    collection_name="my_collection",
    data=data
)

import com.google.gson.Gson;
import com.google.gson.JsonObject;
import io.milvus.v2.service.vector.request.InsertReq;
import io.milvus.v2.service.vector.response.InsertResp;

private static byte[] convertBoolArrayToBytes(boolean[] booleanArray) {
    byte[] byteArray = new byte[booleanArray.length / Byte.SIZE];
    for (int i = 0; i < booleanArray.length; i++) {
        if (booleanArray[i]) {
            int index = i / Byte.SIZE;
            int shift = i % Byte.SIZE;
            byteArray[index] |= (byte) (1 << shift);
        }
    }

    return byteArray;
}

List<JsonObject> rows = new ArrayList<>();
Gson gson = new Gson();
{
    boolean[] boolArray = {true, false, false, true, true, false, true, true, false, true, false, false, true, true, false, true};
    JsonObject row = new JsonObject();
    row.add("binary_vector", gson.toJsonTree(convertBoolArrayToBytes(boolArray)));
    rows.add(row);
}
{
    boolean[] boolArray = {false, true, false, true, false, true, false, false, true, true, false, false, true, true, false, true};
    JsonObject row = new JsonObject();
    row.add("binary_vector", gson.toJsonTree(convertBoolArrayToBytes(boolArray)));
    rows.add(row);
}

InsertResp insertR = client.insert(InsertReq.builder()
        .collectionName("my_collection")
        .data(rows)
        .build());

const data = [
  { binary_vector: [1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1] },
  { binary_vector: [1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1] },
];

client.insert({
  collection_name: "my_collection",
  data: data,
});

_, err = client.Insert(ctx, milvusclient.NewColumnBasedInsertOption("my_collection").
    WithBinaryVectorColumn("binary_vector", 128, [][]byte{
        {0b10011011, 0b01010100, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0},
        {0b10011011, 0b01010101, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0},
    }))
if err != nil {
    fmt.Println(err.Error())
    // エラー処理
}

curl --request POST \
--url "${CLUSTER_ENDPOINT}/v2/vectordb/entities/insert" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Content-Type: application/json" \
-d "{
    \"data\": $data,
    \"collectionName\": \"my_collection\"
}"

類似性検索の実行

類似性検索はZilliz Cloudクラスターの主要機能の1つであり、ベクトル間の距離に基づいてクエリベクトルと最も類似したデータを迅速に検索できます。バイナリベクトルを使用した類似性検索を実行するには、クエリベクトルと検索パラメータを準備し、searchメソッドを呼び出します。

検索操作中は、バイナリベクトルもバイト配列の形式で提供する必要があります。クエリベクトルの次元がdimで指定されたものと一致していることを確認し、すべての8つの真偽値が1バイトに変換されていることを確認してください。

Python
Java
NodeJS
Go
cURL

search_params = {
    "params": {"nprobe": 10}
}

query_bool_list = [1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0] + [0] * 112
query_vector = convert_bool_list_to_bytes(query_bool_list)

res = client.search(
    collection_name="my_collection",
    data=[query_vector],
    anns_field="binary_vector",
    search_params=search_params,
    limit=5,
    output_fields=["pk"]
)

print(res)

# 出力
# data: ["[{'id': '453718927992172268', 'distance': 10.0, 'entity': {'pk': '453718927992172268'}}]"]

import io.milvus.v2.service.vector.request.SearchReq;
import io.milvus.v2.service.vector.request.data.BinaryVec;
import io.milvus.v2.service.vector.response.SearchResp;

Map<String,Object> searchParams = new HashMap<>();
searchParams.put("nprobe",10);

boolean[] boolArray = {true, false, false, true, true, false, true, true, false, true, false, false, true, true, false, true};
BinaryVec queryVector = new BinaryVec(convertBoolArrayToBytes(boolArray));

SearchResp searchR = client.search(SearchReq.builder()
        .collectionName("my_collection")
        .data(Collections.singletonList(queryVector))
        .annsField("binary_vector")
        .searchParams(searchParams)
        .topK(5)
        .outputFields(Collections.singletonList("pk"))
        .build());

 System.out.println(searchR.getSearchResults());

 // 出力
 //
 // [[SearchResp.SearchResult(entity={pk=453444327741536775}, score=0.0, id=453444327741536775), SearchResp.SearchResult(entity={pk=453444327741536776}, score=7.0, id=453444327741536776)]]

query_vector = [1,0,1,0,1,1,1,1,1,1,1,1];

client.search({
    collection_name: 'my_collection',
    data: query_vector,
    limit: 5,
    output_fields: ['pk'],
    params: {
        nprobe: 10
    }
});

queryVector := []byte{0b10011011, 0b01010100, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0}

annSearchParams := index.NewCustomAnnParam()
annSearchParams.WithExtraParam("nprobe", 10)
resultSets, err := client.Search(ctx, milvusclient.NewSearchOption(
    "my_collection", // collectionName
    5,                      // limit
    []entity.Vector{entity.BinaryVector(queryVector)},
).WithANNSField("binary_vector").
    WithOutputFields("pk").
    WithAnnParam(annSearchParams))
if err != nil {
    fmt.Println(err.Error())
    // エラー処理
}

for _, resultSet := range resultSets {
    fmt.Println("IDs: ", resultSet.IDs.FieldData().GetScalars())
    fmt.Println("Scores: ", resultSet.Scores)
    fmt.Println("Pks: ", resultSet.GetColumn("pk").FieldData().GetScalars())
}

export searchParams='{
        "params":{"nprobe":10}
    }'

curl --request POST \
--url "${CLUSTER_ENDPOINT}/v2/vectordb/entities/search" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Content-Type: application/json" \
-d "{
    \"collectionName\": \"my_collection\",
    \"data\": $data,
    \"annsField\": \"binary_vector\",
    \"limit\": 5,
    \"searchParams\":$searchParams,
    \"outputFields\": [\"pk\"]
}"

類似性検索パラメータの詳細については、基本ANN検索を参照してください.

概要​

バイナリベクトルの使用​

ベクトルフィールドの追加​

ベクトルフィールドのインデックスパラメータの設定​

コレクションの作成​

データの挿入​

類似性検索の実行​