ElasticsearchクエリからMilvusへ
ElasticsearchはApache Luceneを基盤とした主要なオープンソース検索エンジンです。しかし、モダンなAIアプリケーションにおいては、高コストな更新、リアルタイム性能の低下、非効率なシャード管理、クラウドネイティブでない設計、過剰なリソース要求などの課題に直面しています。クラウドネイティブなベクトルデータベースとして、Milvusはこれらの問題を、ストレージとコンピューティングの分離、高次元データの効率的なインデックス作成、モダンなインフラとのシームレスな統合により克服しています。AIワークロードに対して優れたパフォーマンスとスケーラビリティを提供します。
この記事では、ElasticsearchからMilvusへのコードベースの移行を促進するため、クエリ変換のさまざまな例を提供します。
概要
Elasticsearchでは、クエリコンテキストでの操作により関連性スコアが生成される一方、フィルターコンテキストでは生成されません。同様に、Milvusの検索では類似性スコアが生成されるのに対し、フィルターのようなクエリでは生成されません。ElasticsearchからMilvusへのコードベースの移行においては、Elasticsearchのクエリコンテキストで使用されるフィールドをベクトルフィールドに変換し、類似性スコアの生成を可能にするという基本原則があります。
以下の表は、ElasticsearchのクエリパターンとそのMilvusでの対応する同等機能を示しています。
Elasticsearchクエリ | Milvusの同等機能 | 備考 |
|---|---|---|
全文検索 | ||
全文検索 | 両方とも同様の機能セットを提供します。 | |
用語レベルクエリ | ||
| これらのElasticsearchクエリがフィルターコンテキストで使用されている場合、両方とも同じまたは同様の機能セットを提供します。 | |
| ||
| ||
| ||
| ||
| ||
| フィルターコンテキストで使用されている場合、両方とも同様の機能セットを提供します。 | |
ベクタークエリ | ||
Search | Milvusはより高度なベクトル検索機能を提供します。 | |
Hybrid Search | Milvusは複数のリランキング戦略をサポートします。 | |
全文検索
Elasticsearchでは、全文検索クエリを使用して、メール本文などの解析済みテキストフィールドを検索できます。クエリ文字列は、インデックス作成時にフィールドに適用されたのと同じアナライザーを使用して処理されます。
Matchクエリ
Elasticsearchでは、Matchクエリは、提供されたテキスト、数値、日付、またはブール値に一致するドキュメントを返します。提供されたテキストは一致前に解析されます。
以下は、Matchクエリを使用したElasticsearch検索リクエストの例です。
resp = client.search(
query={
"match": {
"message": {
"query": "this is a test"
}
}
},
)
Milvusでは、全文検索機能を通じて同じ機能が提供されます。上記のElasticsearchクエリを次のようにMilvusに変換できます。
res = client.search(
collection_name="my_collection",
data=['How is the weather in Jamaica?'],
anns_field="message_sparse",
output_fields=["id", "message"]
)
上記の例では、message_sparseはmessageという名前のVarCharフィールドから派生したスパースベクトルフィールドです。MilvusはBM25埋め込みモデルを使用してmessageフィールドの値をスパースベクトル埋め込みに変換し、message_sparseフィールドに格納します。リクエストを受信すると、Milvusは同じBM25モデルを使用してプレーンテキストクエリペイロードを埋め込み、スパースベクトル検索を実行し、output_fieldsパラメータで指定されたidとmessageフィールドと、対応する類似性スコアを返します。
この機能を使用するには、messageフィールドでアナライザーを有効にする必要があります。Milvusでアナライザーを有効にし、派生関数を作成する詳細については、全文検索を参照してください。
用語レベルクエリ
Elasticsearchでは、日付範囲、IPアドレス、価格、または製品IDなどの構造化データ内の正確な値に基づいてドキュメントを検索するために、用語レベルクエリが使用されます。このセクションでは、Elasticsearchのいくつかの用語レベルクエリのMilvusでの可能な代替手段について説明します。このセクションのすべての例は、Milvusの機能に合わせてフィルターコンテキストで動作するように調整されています。
IDs
Elasticsearchでは、次のようにフィルターコンテキストでIDに基づいてドキュメントを検索できます。
resp = client.search(
query={
"bool": {
"filter": {
"ids": {
"values": [
"1",
"4",
"100"
]
}
}
}
},
)
Milvusでは、次のようにIDに基づいてエンティティを検索することもできます。
# filterパラメータを使用
res = client.query(
collection_name="my_collection",
filter="id in [1, 4, 100]",
output_fields=["id", "title"]
)
# idsパラメータを使用
res = client.query(
collection_name="my_collection",
ids=[1, 4, 100],
output_fields=["id", "title"]
)
Elasticsearchの例はこのページで見つけることができます。Milvusのクエリおよび取得リクエスト、およびフィルター式の詳細については、クエリおよびフィルタリングを参照してください。
Prefixクエリ
Elasticsearchでは、次のようにフィルターコンテキストで指定されたフィールドに特定のプレフィックスが含まれるドキュメントを検索できます。
resp = client.search(
query={
"bool": {
"filter": {
"prefix": {
"user": {
"value": "ki"
}
}
}
}
},
)
Milvusでは、次のように指定されたプレフィックスで始まる値を持つエンティティを検索できます。
res = client.query(
collection_name="my_collection",
filter='user like "ki%"',
output_fields=["id", "user"]
)
Elasticsearchの例はこのページで見つけることができます。Milvusのlike演算子の詳細については、パターンマッチングのための LIKE 演算子の使用を参照してください。
Rangeクエリ
Elasticsearchでは、次のように提供された範囲内の用語を含むドキュメントを検索できます。
resp = client.search(
query={
"bool": {
"filter": {
"range": {
"age": {
"gte": 10,
"lte": 20
}
}
}
}
},
)
Milvusでは、次のように特定のフィールドの値が指定された範囲内にあるエンティティを検索できます。
res = client.query(
collection_name="my_collection",
filter='10 <= age <= 20',
output_fields=["id", "user", "age"]
)
Elasticsearchの例はこのページで見つけることができます。Milvusの比較演算子の詳細については、比較演算子を参照してください。
Termクエリ
Elasticsearchでは、次のように指定されたフィールドに正確な用語が含まれるドキュメントを検索できます。
resp = client.search(
query={
"bool": {
"filter": {
"term": {
"status": {
"value": "retired"
}
}
}
}
},
)
Milvusでは、次のように指定されたフィールドの値が正確に指定された用語であるエンティティを検索できます。
# == を使用
res = client.query(
collection_name="my_collection",
filter='status=="retired"',
output_fields=["id", "user", "status"]
)
# TEXT_MATCH を使用
res = client.query(
collection_name="my_collection",
filter='TEXT_MATCH(status, "retired")',
output_fields=["id", "user", "status"]
)
Elasticsearchの例はこのページで見つけることができます。Milvusの比較演算子の詳細については、比較演算子を参照してください。
Termsクエリ
Elasticsearchでは、次のように指定されたフィールドに1つ以上の正確な用語が含まれるドキュメントを検索できます。
resp = client.search(
query={
"bool": {
"filter": {
"terms": {
"degree": [
"graduate",
"post-graduate"
]
}
}
}
}
)
Milvusにはこの機能の完全な同等機能はありません。ただし、次のように指定されたフィールドの値が指定された用語のいずれかであるエンティティを検索できます。
# in を使用
res = client.query(
collection_name="my_collection",
filter='degree in ["graduate", "post-graduate"]',
output_fields=["id", "user", "degree"]
)
# TEXT_MATCH を使用
res = client.query(
collection_name="my_collection",
filter='TEXT_MATCH(degree, "graduate post-graduate")',
output_fields=["id", "user", "degree"]
)
Elasticsearchの例はこのページで見つけることができます。Milvusの範囲演算子の詳細については、範囲演算子を参照してください。
Wildcardクエリ
Elasticsearchでは、次のようにワイルドカードパターンに一致する用語を含むドキュメントを検索できます。
resp = client.search(
query={
"bool": {
"filter": {
"wildcard": {
"user": {
"value": "ki*y"
}
}
}
}
},
)
Milvusはフィルター条件でのワイルドカードをサポートしていません。ただし、次のようにlike演算子を使用して同様の効果を得ることができます。
res = client.query(
collection_name="my_collection",
filter='user like "ki%" AND user like "%y"',
output_fields=["id", "user"]
)
Elasticsearchの例はこのページで見つけることができます。Milvusの範囲演算子の詳細については、範囲演算子を参照してください。
Booleanクエリ
Elasticsearchでは、Booleanクエリは他のクエリのブール結合に一致するドキュメントを照合するクエリです。
以下の例は、Elasticsearchドキュメントこのページの例から改編されたものです。このクエリは、名前にkimchyが含まれるproductionタグを持つユーザーを返します。
resp = client.search(
query={
"bool": {
"filter": {
"term": {
"user": "kimchy"
}
},
"filter": {
"term": {
"tags": "production"
}
}
}
},
)
Milvusでは、次のように同様のことを行うことができます。
filter =
res = client.query(
collection_name="my_collection",
filter='user like "%kimchy%" AND ARRAY_CONTAINS(tags, "production")',
output_fields=["id", "user", "age", "tags"]
)
上記の例では、ターゲットコレクションにVarChar型のuserフィールドとArray型のtagsフィールドがあると仮定しています。このクエリは、名前にkimchyが含まれるproductionタグを持つユーザーを返します。
ベクトルクエリ
Elasticsearchでは、ベクトルクエリはベクトルフィールド上で動作してセマンティック検索を効率的に実行する専門のクエリです。
Knnクエリ
Elasticsearchは、近似kNNクエリと正確なブルートフォースkNNクエリの両方をサポートしています。次のように、類似性メトリックで測定されるクエリベクトルに最も近いk個のベクトルをいずれかの方法で見つけることができます。
resp = client.search(
index="my-image-index",
size=3,
query={
"knn": {
"field": "image-vector",
"query_vector": [
-5,
9,
-12
],
"k": 10
}
},
)
Milvusは、専門のベクトルデータベースとして、インデックスタイプを使用してベクトル検索を最適化します。通常、高次元ベクトルデータの近似最近傍(ANN)検索を優先します。FLATインデックスタイプによるブルートフォースkNN検索は正確な結果を提供しますが、時間とリソースを多く消費します。対照的に、AUTOINDEXまたはその他のインデックスタイプを使用するANN検索は、速度と精度のバランスを取り、kNNよりもはるかに高速でリソース効率が良い性能を提供します。インデックスタイプとAUTOINDEXの詳細については、インデックスの管理とAUTOINDEXの説明を参照してください。
上記のベクトルクエリと同様の同等機能はMilvusでは次のようになります。
res = client.search(
collection_name="my_collection",
anns_field="image-vector"
data=[[-5, 9, -12]],
limit=10
)
Elasticsearchの例はこのページで見つけることができます。MilvusのANN検索の詳細については、基本ANN検索を参照してください。
Reciprocal Rank Fusion
Elasticsearchでは、Reciprocal Rank Fusion(RRF)を提供し、異なる関連性指標を持つ複数の結果セットを単一のランキング付き結果セットに結合できます。
以下の例では、従来の用語ベース検索とk近傍(kNN)ベクトル検索を組み合わせて、検索関連性を向上させる方法を示しています。
client.search(
index="my_index",
size=10,
query={
"retriever": {
"rrf": {
"retrievers": [
{
"standard": {
"query": {
"term": {
"text": "shoes"
}
}
}
},
{
"knn": {
"field": "vector",
"query_vector": [1.25, 2, 3.5], # 例のベクトルです; 実際のクエリベクトルに置き換えてください
"k": 50,
"num_candidates": 100
}
}
],
"rank_window_size": 50,
"rank_constant": 20
}
}
}
)
この例では、RRFは2つの検索器からの結果を組み合わせています。
-
textフィールドに用語"shoes"を含むドキュメントの標準用語ベース検索。 -
提供されたクエリベクトルを使用した
vectorフィールドのkNN検索。
各検索器は最大50個の上位マッチを提供し、RRFによって再ランク付けされ、最終的な上位10個の結果が返されます。
Milvusでは、複数のベクトルフィールドを横断して検索を組み合わせ、リランキング戦略を適用し、結合されたリストから上位K個の結果を取得することで、同様のハイブリッド検索を実現できます。MilvusはRRFと重み付きリランカー戦略の両方をサポートしています。詳細については、リランキングを参照してください。
以下は、上記Elasticsearch例のMilvusにおける非厳密な同等機能です。
search_params_dense = {
"data": [[1.25, 2, 3.5]],
"anns_field": "vector",
"param": {
"metric_type": "IP",
},
"limit": 100
}
req_dense = ANNSearchRequest(**search_params_dense)
search_params_sparse = {
"data": ["shoes"],
"anns_field": "text_sparse",
"param": {
"metric_type": "BM25",
"params": {"drop_ratio_search": 0.2}
}
}
req_sparse = ANNSearchRequest(**search_params_sparse)
res = client.hybrid_search(
collection_name="my_collection",
reqs=[req_dense, req_sparse],
reranker=RRFRanker(),
limit=10
)
この例では、Milvusのハイブリッド検索のデモンストレーションを行っています。これは次を組み合わせています。
-
密ベクトル検索:
vectorフィールド上で近似最近傍(ANN)検索を行うための内部積(IP)メトリックを使用しています。 -
スパースベクトル検索:
text_sparseフィールド上のBM25類似性メトリックを使用し、drop_ratio_searchパラメータを0.2としています。
これらの検索からの結果は個別に実行され、結合され、相互ランク融合(RRF)ランカーを使用して再ランク付けされます。ハイブリッド検索は、再ランク付けされたリストから上位10個のエンティティを返します。
標準テキストベースクエリとkNN検索からの結果をマージするElasticsearchのRRFランキングとは異なり、Milvusはスパースおよび密ベクトル検索からの結果を組み合わせ、マルチモーダルデータに最適化された独自のハイブリッド検索機能を提供します。
まとめ
この記事では、用語レベルクエリ、Booleanクエリ、全文検索、ベクトルクエリを含む、典型的なElasticsearchクエリをMilvusの同等機能に変換する方法を説明しました。その他のElasticsearchクエリの変換についてさらにご質問がある場合は、いつでもお気軽にお問い合わせください。