メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

テキストマッチ

Zilliz Cloudのテキストマッチは、特定の用語に基づいて正確なドキュメント検索を可能にします。この機能は主に特定の条件を満たすためのフィルタ検索に使用され、スカラー検索を組み込むことでクエリ結果を絞り込み、スカラー条件を満たすベクトル内の類似検索を可能にします。

📘注意

テキストマッチはクエリ用語の正確な出現箇所を検索することに重点を置き、一致したドキュメントの関連性をスコア化しません。クエリ用語の意味的および重要度に基づいて最も関連性の高いドキュメントを取得したい場合は、全文検索の使用を推奨します。

Zilliz Cloudは、プログラムによるテキストマッチの有効化またはWebコンソール経由での有効化をサポートしています。このページはプログラムによるテキストマッチの有効化方法に重点を置いています。Webコンソールでの操作の詳細については、コレクション管理(コンソール)を参照してください。

概要

Zilliz CloudはTantivyを統合して、基礎となる逆インデックスと用語ベースのテキスト検索を実現しています。各テキストエントリに対して、Zilliz Cloudは以下の手順に従ってインデックスを作成します:

  1. アナライザー: アナライザーは入力されたテキストを個々の単語またはトークンに分割するトークナイズ処理を行い、必要に応じてフィルターを適用します。これにより、Zilliz Cloudはこれらのトークンに基づいてインデックスを構築できます。

  2. インデックス作成: テキスト分析後、Zilliz Cloudは各ユニークトークンを含むドキュメントにマッピングする逆インデックスを作成します。

ユーザーがテキストマッチを実行する際、逆インデックスを使用して、用語を含むすべてのドキュメントをすばやく検索できます。これは、各ドキュメントを個別にスキャンするよりもはるかに高速です。

N43zw7HuGhmCHRbYDDmctO1bnkd

テキストマッチの有効化

テキストマッチはVARCHARフィールドタイプで動作します。これはZilliz Cloudにおける文字列データ型です。テキストマッチを有効にするには、コレクションスキーマを定義する際にenable_analyzerenable_matchの両方をTrueに設定し、必要に応じてテキスト分析用にアナライザーを設定します。

enable_analyzerenable_matchの設定

特定のVARCHARフィールドにテキストマッチを有効にするには、フィールドスキーマを定義する際にenable_analyzerenable_matchパラメータの両方をTrueに設定します。これにより、Zilliz Cloudはテキストをトークナイズし、指定されたフィールド用の逆インデックスを作成し、高速で効率的なテキストマッチを可能にします。

from pymilvus import MilvusClient, DataType

schema = MilvusClient.create_schema(enable_dynamic_field=False)
schema.add_field(
field_name="id",
datatype=DataType.INT64,
is_primary=True,
auto_id=True
)
schema.add_field(
field_name='text',
datatype=DataType.VARCHAR,
max_length=1000,
enable_analyzer=True, # このフィールドに対してテキスト分析を有効にするか
enable_match=True # テキストマッチを有効にするか
)
schema.add_field(
field_name="embeddings",
datatype=DataType.FLOAT_VECTOR,
dim=5
)

オプション: アナライザーの設定

キーワードマッチングのパフォーマンスと精度は、選択したアナライザーに依存します。異なるアナライザーはさまざまな言語やテキスト構造に合わせて調整されているため、適切なものを選択することで特定のユースケースにおける検索結果に大きな影響を与えることができます。

デフォルトでZilliz Cloudはstandardアナライザーを使用します。これは空白と句読点に基づいてテキストをトークナイズし、40文字を超えるトークンを削除し、テキストを小文字に変換します。このデフォルト設定を適用するために追加のパラメータは必要ありません。詳細については、標準アナライザーを参照してください。

異なるアナライザーが必要な場合、analyzer_paramsパラメータを使用して設定できます。たとえば、英語テキストの処理にはenglishアナライザーを適用します:

analyzer_params = {
"type": "english"
}
schema.add_field(
field_name='text',
datatype=DataType.VARCHAR,
max_length=200,
enable_analyzer=True,
analyzer_params = analyzer_params,
enable_match = True,
)

Zilliz Cloudは異なる言語やシナリオに適したさまざまな他のアナライザーも提供しています。詳細については、アナライザー概要を参照してください。

テキストマッチの使用

コレクションスキーマのVARCHARフィールドに対してテキストマッチを有効にすると、TEXT_MATCH式を使用してテキストマッチを実行できます。

TEXT_MATCH式の構文

TEXT_MATCH式は、検索対象のフィールドと検索用語を指定するために使用されます。構文は以下の通りです:

TEXT_MATCH(field_name, text)
  • field_name: 検索対象のVARCHARフィールドの名前です。

  • text: 検索対象の用語です。複数の用語は、言語と設定されたアナライザーに基づいてスペースまたはその他の適切な区切り文字で区切ることができます。

デフォルトでは、TEXT_MATCHORマッチングロジックを使用し、指定された用語のいずれかを含むドキュメントを返します。たとえば、textフィールドにmachineまたはdeepという用語を含むドキュメントを検索するには、以下の式を使用します:

filter = "TEXT_MATCH(text, 'machine deep')"

論理演算子を使用して複数のTEXT_MATCH式を組み合わせて、ANDマッチングを実行することもできます。

  • textフィールドにmachinedeepの両方を含むドキュメントを検索するには、以下の式を使用します:

    filter = "TEXT_MATCH(text, 'machine') and TEXT_MATCH(text, 'deep')"
  • textフィールドにmachinelearningの両方を含みながらdeepを含まないドキュメントを検索するには、以下の式を使用します:

    filter = "not TEXT_MATCH(text, 'deep') and TEXT_MATCH(text, 'machine') and TEXT_MATCH(text, 'learning')"

テキストマッチによる検索

テキストマッチは、検索範囲を狭め、検索パフォーマンスを向上させるためにベクトル類似性検索と組み合わせて使用できます。ベクトル類似性検索の前にテキストマッチを使用してコレクションをフィルタリングすることで、検索する必要のあるドキュメント数を減らし、より高速なクエリ時間を実現できます。

この例では、filter式を使用して検索結果をkeyword1またはkeyword2という指定された用語に一致するドキュメントのみにフィルタリングします。その後、このフィルタリングされたドキュメントのサブセットに対してベクトル類似性検索が実行されます。

# `keyword1`または`keyword2`に一致するエンティティ
filter = "TEXT_MATCH(text, 'keyword1 keyword2')"

# 'embeddings'がベクトルフィールドで'text'がVARCHARフィールドと仮定
result = client.search(
collection_name="my_collection", # あなたのコレクション名
anns_field="embeddings", # ベクトルフィールド名
data=[query_vector], # クエリベクトル
filter=filter,
search_params={"params": {"nprobe": 10}},
limit=10, # 返す結果の最大数
output_fields=["id", "text"] # 返すフィールド
)

テキストマッチによるクエリ

テキストマッチはクエリ操作におけるスカラー検索にも使用できます。query()メソッドのexprパラメータにTEXT_MATCH式を指定することで、与えられた用語に一致するドキュメントを取得できます。

以下の例では、textフィールドにkeyword1keyword2の両方の用語を含むドキュメントを取得しています。

# `keyword1`と`keyword2`の両方に一致するエンティティ
filter = "TEXT_MATCH(text, 'keyword1') and TEXT_MATCH(text, 'keyword2')"

result = client.query(
collection_name="my_collection",
filter=filter,
output_fields=["id", "text"]
)

考慮事項

  • フィールドに対して用語マッチングを有効にすると、逆インデックスの作成がトリガーされ、ストレージリソースを消費します。この機能を有効にする際には、テキストサイズ、ユニークトークン、使用するアナライザーに基づいてストレージへの影響を考慮してください。

  • スキーマでアナライザーを定義すると、その設定はそのコレクションに対して永続的になります。異なるアナライザーの方がニーズにより適していると判断した場合、既存のコレクションを削除して、希望するアナライザー構成を持つ新しいコレクションを作成することを検討できます。

  • filter式内のエスケープルール:

    • 式内で二重引用符または一重引用符で囲まれた文字は、文字列定数として解釈されます。文字列定数にエスケープ文字が含まれる場合、エスケープ文字はエスケープシーケンスで表す必要があります。たとえば、\\を使用して\を表し、\\tを使用してタブ\tを表し、\\nを使用して改行を表します。

    • 文字列定数が一重引用符で囲まれている場合、定数内の一重引用符は\\'で表されるのに対し、二重引用符は"または\\"のいずれかで表すことができます。例:'It\\'s milvus'

    • 文字列定数が二重引用符で囲まれている場合、定数内の二重引用符は\\"で表されるのに対し、一重引用符は'または\\'のいずれかで表すことができます。例:"He said \\"Hi\\"".