メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

テキスト一致

Zilliz Cloud のテキスト一致機能は、特定の用語に基づいて正確なドキュメントを検索できるようにします。この機能は主に特定の条件を満たすフィルタリング検索に使用され、スカラー値によるフィルタリングを組み合わせてクエリ結果を絞り込むことができ、スカラー条件を満たすベクトル内での類似性検索を可能にします。

📘Notes

テキスト一致はクエリ用語の完全一致のみを対象とし、マッチしたドキュメントの関連性スコアは計算しません。クエリ用語の意味的関連性や重要度に基づいて最も関連性の高いドキュメントを取得したい場合は、全文検索(Full Text Search)の利用を推奨します。

Zilliz Cloud では、テキスト一致をプログラムから有効化することも、ウェブコンソールから有効化することもできます。このページでは、プログラムによる有効化方法について説明します。ウェブコンソールでの操作の詳細については、コレクションの管理(コンソール)を参照してください。

概要

Zilliz Cloud は、基盤となる転置インデックスおよび用語ベースのテキスト検索を実現するために Tantivy を統合しています。各テキストエントリに対して、Zilliz Cloud は以下の手順でインデックスを作成します。

  1. アナライザー: アナライザーは入力テキストを個々の単語(トークン)に分割(トークン化)し、必要に応じてフィルターを適用します。これにより、Zilliz Cloud はこれらのトークンに基づいたインデックスを構築できます。

  2. インデックス作成: テキスト分析後、Zilliz Cloud は各一意なトークンをそのトークンを含むドキュメントにマッピングする転置インデックスを作成します。

ユーザーがテキスト一致を実行すると、この転置インデックスを使用して該当する用語を含むすべてのドキュメントを高速に取得できます。これは個々のドキュメントを逐一スキャンするよりもはるかに高速です。

N43zw7HuGhmCHRbYDDmctO1bnkd

テキスト一致の有効化

テキスト一致は VARCHAR フィールドタイプ(Zilliz Cloud における文字列データ型)に対して機能します。テキスト一致を有効にするには、コレクションスキーマを定義する際に enable_analyzer および enable_matchTrue に設定し、オプションでテキスト分析用のアナライザーを設定します。

enable_analyzer および enable_match の設定

特定の VARCHAR フィールドに対してテキスト一致を有効にするには、フィールドスキーマを定義する際に enable_analyzer および enable_match パラメータを両方とも True に設定します。これにより、Zilliz Cloud は指定されたフィールドのテキストをトークン化し、転置インデックスを作成して、高速かつ効率的なテキスト一致を可能にします。

from pymilvus import MilvusClient, DataType

schema = MilvusClient.create_schema(enable_dynamic_field=False)
schema.add_field(
field_name="id",
datatype=DataType.INT64,
is_primary=True,
auto_id=True
)
schema.add_field(
field_name='text',
datatype=DataType.VARCHAR,
max_length=1000,
enable_analyzer=True, # Whether to enable text analysis for this field
enable_match=True # Whether to enable text match
)
schema.add_field(
field_name="embeddings",
datatype=DataType.FLOAT_VECTOR,
dim=5
)

(オプション)アナライザーの設定

キーワードマッチングのパフォーマンスと精度は、選択したアナライザーに依存します。さまざまな言語やテキスト構造に合わせて異なるアナライザーが用意されているため、ユースケースに最適なアナライザーを選択することで検索結果が大きく改善される可能性があります。

デフォルトでは、Zilliz Cloud は standard アナライザーを使用します。このアナライザーは、空白や句読点に基づいてテキストをトークン化し、40文字を超えるトークンを削除して小文字に変換します。このデフォルト設定を適用するには、追加のパラメータは不要です。詳細については、Standard を参照してください。

別のアナライザーが必要な場合は、analyzer_params パラメータを使用して設定できます。たとえば、英語テキストを処理するために english アナライザーを適用するには、次のようになります:

analyzer_params = {
"type": "english"
}
schema.add_field(
field_name='text',
datatype=DataType.VARCHAR,
max_length=200,
enable_analyzer=True,
analyzer_params = analyzer_params,
enable_match = True,
)

Zilliz Cloud は、さまざまな言語やシナリオに適した他のアナライザーも提供しています。詳細については、Analyzer Overview を参照してください。

テキスト一致の使用

コレクションスキーマ内の VARCHAR フィールドでテキスト一致を有効化すると、TEXT_MATCH 式を使用してテキスト一致検索を実行できます。

TEXT_MATCH 式の構文

TEXT_MATCH 式は、検索対象のフィールドと検索語句を指定するために使用されます。その構文は次のとおりです:

TEXT_MATCH(field_name, text)
  • field_name: 検索対象となる VARCHAR フィールドの名前。

  • text: 検索する語句。複数の語句は、スペースまたは言語と設定されたアナライザーに基づく適切な区切り文字で分離できます。

デフォルトでは、TEXT_MATCHOR マッチングロジックを使用します。つまり、指定された語句のいずれかを含むドキュメントが返されます。たとえば、text フィールドに machine または deep を含むドキュメントを検索するには、次の式を使用します:

filter = "TEXT_MATCH(text, 'machine deep')"

論理演算子を使用して複数の TEXT_MATCH 式を組み合わせ、AND マッチングを実行することもできます。

  • text フィールドに machinedeep の両方を含むドキュメントを検索するには、次の式を使用します:

    filter = "TEXT_MATCH(text, 'machine') and TEXT_MATCH(text, 'deep')"
  • text フィールド内で machine および learning を含み、かつ deep を含まないドキュメントを検索するには、次の式を使用します:

    filter = "not TEXT_MATCH(text, 'deep') and TEXT_MATCH(text, 'machine') and TEXT_MATCH(text, 'learning')"

テキスト一致による検索

テキスト一致は、ベクトル類似性検索と組み合わせて使用することで、検索範囲を絞り込み、検索パフォーマンスを向上させることができます。ベクトル類似性検索の前にテキスト一致でコレクションをフィルタリングすることで、検索対象となるドキュメント数を削減し、クエリの実行時間を短縮できます。

この例では、filter 式により、指定された用語 keyword1 または keyword2 に一致するドキュメントのみが検索結果に含まれるようにフィルタリングされます。その後、このフィルタリングされたドキュメントのサブセットに対してベクトル類似性検索が実行されます。

# Match entities with `keyword1` or `keyword2`
filter = "TEXT_MATCH(text, 'keyword1 keyword2')"

# Assuming 'embeddings' is the vector field and 'text' is the VARCHAR field
result = client.search(
collection_name="my_collection", # Your collection name
anns_field="embeddings", # Vector field name
data=[query_vector], # Query vector
filter=filter,
search_params={"params": {"nprobe": 10}},
limit=10, # Max. number of results to return
output_fields=["id", "text"] # Fields to return
)

Query with テキスト一致

テキスト一致は、クエリ操作におけるスカラーフィルタリングにも使用できます。query() メソッドの expr パラメータに TEXT_MATCH 式を指定することで、指定された用語に一致するドキュメントを取得できます。

以下の例では、text フィールドに keyword1keyword2 の両方の用語が含まれるドキュメントを取得します。

# Match entities with both `keyword1` and `keyword2`
filter = "TEXT_MATCH(text, 'keyword1') and TEXT_MATCH(text, 'keyword2')"

result = client.query(
collection_name="my_collection",
filter=filter,
output_fields=["id", "text"]
)

Considerations

  • フィールドに対して用語マッチングを有効にすると、転置インデックスが作成され、ストレージリソースを消費します。この機能を有効にするかどうかを決定する際は、テキストのサイズ、固有のトークン数、使用されるアナライザーによって異なるストレージへの影響を考慮してください。

  • スキーマでアナライザーを定義 once すると、その設定は該当のコレクションに対して永続的になります。別のアナライザーの方がニーズに適していると判断した場合は、既存のコレクションを削除し、希望のアナライザー構成で新しいコレクションを作成することを検討してください。

  • filter 式におけるエスケープ規則:

    • 式内で二重引用符または単一引用符で囲まれた文字は文字列定数として解釈されます。文字列定数にエスケープ文字が含まれる場合、エスケープ文字はエスケープシーケンスで表現する必要があります。例えば、\ を表すには \\ を、タブ \t を表すには \\t を、改行を表すには \\n を使用します。

    • 文字列定数が単一引用符で囲まれている場合、定数内の単一引用符は \\' として表現する必要があり、二重引用符は " または \\" のいずれかで表現できます。例:'It\\'s milvus'

    • 文字列定数が二重引用符で囲まれている場合、定数内の二重引用符は \\" として表現する必要があり、単一引用符は ' または \\' のいずれかで表現できます。例:"He said \\"Hi\\""