検索
Zilliz Cloudはベクターに基づく類似度検索を実装し、検索効率とパフォーマンスを向上させるための複数の最適化を提供します。この章では、Zilliz Cloudで利用可能なさまざまなベクター検索方法の原理とチュートリアルを学びます。
基本ベクトル検索 [READ MORE]
ソートされたベクトル埋め込みの順序を記録したインデックスファイルに基づいて、近似最近傍(ANN)検索は、受信した検索リクエストに含まれるクエリーベクトルに基づいてベクトル埋め込みのサブセットを特定し、クエリーベクトルをサブグループ内のベクトルと比較し、最も類似する結果を返します。ANN検索により、Zilliz Cloudは効率的な検索体験を提供します。このページでは、基本的なANN検索の実施方法を学ぶことができます。
再現率の調整 [READ MORE]
Zilliz Cloudは、ユーザーが検索の再現率とパフォーマンスをバランスさせるために検索パラメータ`level`を導入しています。また、現在の検索の推定再現率をユーザーに提供するために、別の検索パラメータ`enable_recall_calculation`も提供しています。これらの2つのパラメータを組み合わせて、ベクトル検索の再現率を調整できます。
フィルタ付き検索 [READ MORE]
ANN検索は、指定されたベクトル埋め込みと最も類似したベクトル埋め込みを見つけます。ただし、検索結果が常に正確であるとは限りません。検索リクエストにフィルタリング条件を含めることで、Zilliz CloudはANN検索の前にメタデータフィルタリングを実行し、検索範囲をコレクション全体から指定されたフィルタリング条件にマッチするエンティティのみに縮小できます。
範囲検索 [READ MORE]
範囲検索は、返されるエンティティの距離またはスコアを特定の範囲内に制限することで、検索結果の関連性を向上させます。このページでは、範囲検索とは何か、範囲検索を実行する手順について理解するのに役立ちます。
グループ化検索 [READ MORE]
グループ化検索では、Zilliz Cloudが指定したフィールドの値によって検索結果をグループ化し、データをより高いレベルで集約できます。たとえば、基本的なANN検索を使用して現在の本に類似した本を見つけることができますが、グループ化検索を使用して、その本で議論されているトピックに関連する可能性のある本のカテゴリを見つけることができます。このトピックでは、グループ化検索の使用方法と重要な考慮事項について説明します。
ハイブリッド検索 [READ MORE]
多くのアプリケーションでは、タイトルや説明文などの豊富な情報を使用してオブジェクトを検索したり、テキスト、画像、音声などの複数のモダリティで検索したりできます。たとえば、テキストと画像が含まれるツイートは、テキストまたは画像が検索クエリのセマンティクスに一致する場合に検索する必要があります。ハイブリッド検索は、これらの多様なフィールドにわたる検索を組み合わせて検索体験を向上させます。Zilliz Cloudは、複数のベクトルフィールドでの検索を許可し、複数の近似最近傍(ANN)検索を同時に実行することでこれをサポートしています。マルチベクトルハイブリッド検索は、テキストと画像の両方を検索したい場合、同じオブジェクトを記述する複数のテキストフィールドを検索したい場合、または検索品質を向上させるために密ベクトルと疎ベクトルを組み合わせたい場合に特に有効です。
クエリ [READ MORE]
ANN検索に加えて、Zilliz Cloudはクエリを通じたメタデータフィルタリングもサポートしています。このページでは、Query、Get、およびQueryIteratorsを使用してメタデータフィルタリングを実行する方法を紹介します。
フィルタリング [READ MORE]
この章では、スカラー型フィールドに対するフィルタリングの実行方法と適用可能なフィルタリング演算子およびテンプレートについて説明します。
全文検索 [READ MORE]
全文検索は、テキストデータセット内の特定の用語や語句を含むドキュメントを検索し、関連性に基づいて結果をランク付けする機能です。この機能は、正確な用語を見逃す可能性のあるセマンティック検索の限界を克服し、最も正確で文脈的に関連する結果を受け取ることができます。さらに、この機能はベクトル検索を簡素化し、手動でベクトル埋め込みを生成することなく、生のテキスト入力を受け付けることで自動的にテキストデータをスパース埋め込みに変換します。
テキストマッチ [READ MORE]
Zilliz Cloudのテキストマッチは、特定の用語に基づいて正確なドキュメント検索を可能にします。この機能は主に特定の条件を満たすためのフィルタ検索に使用され、スカラー検索を組み込むことでクエリ結果を絞り込み、スカラー条件を満たすベクトル内の類似検索を可能にします。
フレーズマッチ [READ MORE]
フレーズマッチを使用すると、クエリ用語を正確なフレーズとして含むドキュメントを検索できます。デフォルトでは、単語は同じ順序で互いに直接隣接して表示される必要があります。たとえば、**「robotics machine learning」**のクエリは、**「robotics」**、**「machine」**、および**「learning」**の単語が間に他の単語なしで連続して表示される**「…typical robotics machine learning models…」**のようなテキストに一致します。
Elasticsearch クエリから Milvus へ [READ MORE]
Elasticsearch は Apache Lucene をベースに構築された主要なオープンソース検索エンジンです。しかし、モダンな AI アプリケーションでは、更新コストの高さ、リアルタイム性能の低さ、非効率的なシャード管理、クラウドネイティブでない設計、過剰なリソース要求などの課題に直面しています。クラウドネイティブなベクトルデータベースとして、Milvus はストレージとコンピューティングの分離、高次元データの効率的なインデックス作成、モダンインフラとのシームレスな統合によりこれらの問題を克服します。AIワークロードへの優れた性能とスケーラビリティを提供します。
検索イテレーター [READ MORE]
ANN検索では、1回のクエリで取得できるエンティティ数に最大制限があり、基本的なANN検索のみを使用しても大規模検索の要求を満たせない場合があります。topKが16,384を超えるANN検索リクエストでは、SearchIteratorの使用を検討することをお勧めします。このセクションでは、SearchIteratorの使用方法と関連する検討事項を紹介します。
パーティションキーの使用 [READ MORE]
パーティションキーはパーティションに基づく検索最適化解決策です。特定のスカラーフィールドをパーティションキーとして指定し、検索時にパーティションキーに基づいたフィルタリング条件を指定することで、検索範囲をいくつかのパーティションに絞り込むことができ、検索効率を向上させます。この記事では、パーティションキーの使用方法と関連する考慮事項を紹介します。
mmapの使用 [READ MORE]
メモリマッピング(mmap)により、ディスク上の大きなファイルに直接メモリアクセスできるようになり、Zilliz Cloudがインデックスとデータをメモリとハードディスクの両方に保存できるようになります。このアプローチにより、アクセス頻度に基づいたデータ配置ポリシーの最適化が可能となり、検索パフォーマンスに影響を与えることなくコレクションのストレージ容量を拡張できます。このページでは、Zilliz Cloudがmmapを使用して高速で効率的なデータ保存と検索を実現する方法について説明します。
整合性レベル [READ MORE]
分散型ベクトルデータベースとして、Zilliz Cloudは複数の整合性レベルを提供し、各ノードまたはレプリカが読み書き操作中に同じデータにアクセスできるようにします。現在サポートされている整合性レベルには、Strong、Bounded、Eventually、Sessionがあり、デフォルトではBoundedが使用されます。
メトリックタイプ [READ MORE]
類似度メトリックはベクトル間の類似性を測定するために使用されます。適切な距離メトリックを選択することで、分類およびクラスタリングのパフォーマンスを大幅に改善できます。