検索
Zilliz Cloudはベクトルベースの類似検索を実装しており、検索効率とパフォーマンスを向上させるための複数の最適化を提供します。この章では、Zilliz Cloudで利用可能なさまざまなベクトル検索方法の原理とチュートリアルについて学びます。
基本ベクトル検索 [READ MORE]
ベクトル埋め込みのソートされた順序を記録したインデックスファイルに基づき、近似最近傍(ANN)検索は、受信した検索リクエストに含まれるクエリベクトルを基にベクトル埋め込みのサブセットを特定し、クエリベクトルとサブグループ内のベクトルを比較して最も類似した結果を返します。ANN検索により、Zilliz Cloudは効率的な検索体験を提供します。このページでは、基本的なANN検索の実行方法について学びます。
フィルター検索 [READ MORE]
近似近傍探索(ANN)検索は、指定されたベクトル埋め込みに最も類似したベクトル埋め込みを見つけます。しかし、検索結果が常に正確であるとは限りません。検索リクエストにフィルター条件を含めることで、Zilliz CloudはANN検索の前にメタデータフィルタリングを実行し、検索範囲をコレクション全体から指定されたフィルター条件に一致するエンティティのみに縮小できます。
範囲検索 [READ MORE]
範囲検索は、返されるエンティティの距離またはスコアを特定の範囲内に制限することで、検索結果の関連性を向上させます。このページでは、範囲検索とは何か、および範囲検索の実施手順について理解するのに役立ちます。
グループ検索 [READ MORE]
グループ検索により、Zilliz Cloudは検索結果を指定されたフィールドの値でグループ化し、データをより高いレベルで集約できます。たとえば、基本的なANN検索を使用して手元の本に類似した本を見つけることができますが、グループ検索を使用してその本で議論されているトピックに関連する本のカテゴリを見つけることもできます。このトピックでは、グループ検索の使用方法と主要な考慮事項について説明します。
ハイブリッド検索 [READ MORE]
多くのアプリケーションでは、タイトルや説明のような豊富な情報セットや、テキスト、画像、音声などの複数のモダリティでオブジェクトを検索できます。たとえば、テキストと画像の両方を含むツイートでは、テキストまたは画像が検索クエリのセマンティクスに一致している場合に検索対象となります。ハイブリッド検索は、これらの多様なフィールドにわたる検索を組み合わせることで検索体験を向上させます。Zilliz Cloudは、複数のベクトルフィールドに対する検索を可能にし、複数の近似最近傍(ANN)検索を同時に実行することをサポートしています。マルチベクトルハイブリッド検索は、テキストと画像の両方を検索したい場合、同じオブジェクトを説明する複数のテキストフィールドで検索したい場合、または検索品質を向上させるために密ベクトルとスパースベクトルを組み合わせたい場合に特に有効です。
クエリ [READ MORE]
ANN検索に加えて、Zilliz Cloudはクエリを通じたメタデータフィルタリングもサポートしています。このページでは、Query、Get、QueryIteratorを使用してメタデータフィルタリングを実行する方法を紹介します。
フィルタリング [READ MORE]
この章では、スカラーフィールドでのフィルタリングの実行方法、および適用可能なフィルタリング演算子とテンプレートについて説明します。
全文検索 [READ MORE]
全文検索は、テキストデータセット内の特定の用語または語句を含むドキュメントを検索し、関連性に基づいて結果をランク付けする機能です。この機能は、正確な用語を見逃す可能性があるセマンティック検索の限界を克服し、最も正確で文脈的に関連性のある結果を受け取ることができます。さらに、生のテキスト入力を受け入れることでベクトル検索を簡素化し、手動でベクトル埋め込みを生成する必要なく、テキストデータをスパース埋め込みに自動的に変換します。
テキスト一致 [READ MORE]
Zilliz Cloudのテキスト一致機能により、特定の語句に基づいた正確なドキュメント検索が可能になります。この機能は主に特定の条件を満たすためのフィルター検索に使用され、スカラー値のフィルタリングを組み込んでクエリ結果を絞り込むことができ、スカラー基準を満たすベクトル内で類似性検索を可能にします。
フレーズ一致 [READ MORE]
フレーズ一致を使用すると、クエリ語句を正確なフレーズとして含むドキュメントを検索できます。デフォルトでは、単語は同じ順序で隣接して出現する必要があります。たとえば、「robotics machine learning」というクエリは、「...typical robotics machine learning models...」のようなテキストに一致します。この場合、「robotics」、「machine」、および「learning」の単語は間に他の単語がない状態で連続して出現します。
ElasticsearchクエリからMilvusへ [READ MORE]
ElasticsearchはApache Luceneを基盤としており、主要なオープンソース検索エンジンです。しかし、モダンなAIアプリケーションにおいては、高コストな更新、リアルタイム性能の低下、非効率なシャード管理、クラウドネイティブでない設計、過剰なリソース要求などの課題に直面しています。クラウドネイティブなベクトルデータベースとして、Milvusはこれらの問題を、ストレージとコンピューティングの分離、高次元データの効率的なインデックス作成、モダンなインフラとのシームレスな統合により克服しています。AIワークロード向けに優れたパフォーマンスとスケーラビリティを提供します。
検索イテレータ [READ MORE]
ANN検索では、1回のクエリで取得できるエンティティ数に最大制限があり、基本的なANN検索のみを使用しても大規模検索の要求を満たせない場合があります。topKが16,384を超えるANN検索リクエストでは、SearchIteratorの使用を検討することをお勧めします。このセクションでは、SearchIteratorの使用方法と関連する考慮事項について説明します。
リコールレートの調整 [READ MORE]
Zilliz Cloudは、検索の再検出率とパフォーマンスのバランスを取るために、ユーザーが使用できる検索パラメータ`level`を導入しています。また、現在の検索の推定再検出率をユーザーに提供するための別の検索パラメータ`enable_recall_calculation`も提供しています。これらの2つのパラメータを組み合わせて、ベクトル検索の再検出率を調整できます。
パーティションキーの使用 [READ MORE]
パーティションキーは、パーティションに基づく検索最適化ソリューションです。特定のスカラーフィールドをパーティションキーとして指定し、検索中にパーティションキーに基づくフィルター条件を指定することにより、検索範囲をいくつかのパーティションに限定し、検索効率を向上させることができます。この記事では、パーティションキーの使用方法と関連する考慮事項について紹介します。
mmapの使用 [READ MORE]
メモリマッピング(mmap)は、ディスク上の大きなファイルへの直接メモリアクセスを可能にし、Zilliz Cloudがインデックスとデータをメモリとハードドライブの両方に格納できるようにします。このアプローチにより、アクセス頻度に基づいたデータ配置ポリシーを最適化し、検索パフォーマンスに影響を与えずにコレクションのストレージ容量を拡大できます。このページでは、Zilliz Cloudがmmapを使用して高速かつ効率的なデータストレージと検索を可能にする方法について説明します。
整合性レベル [READ MORE]
分散型ベクトルデータベースとして、Zilliz Cloudは複数の整合性レベルを提供し、各ノードまたはレプリカが読み書き操作中に同じデータにアクセスできるようにします。現在サポートされている整合性レベルには、Strong、Bounded、Eventually、Sessionがあり、デフォルトではBoundedが使用されます。
メトリックタイプ [READ MORE]
類似度メトリックはベクトル間の類似性を測定するために使用されます。適切な距離メトリックを選択することで、分類およびクラスタリングのパフォーマンスを大幅に改善できます。