スキーマとデータフィールド
スキーマは、コレクションのデータ構造を定義し、コレクションフィールドの名前、順序、データ型、および関連する属性を決定します。この章では、主にスキーマと関連する概念について説明します。
スキーマの説明 [READ MORE]
スキーマはコレクションのデータ構造を定義します。コレクションを作成する前に、スキーマの設計を行う必要があります。このページでは、コレクションのスキーマを理解し、独自のスキーマの例を設計するのに役立ちます。
プライマリフィールドとAutoID [READ MORE]
プライマリフィールドはエンティティを一意に識別します。このページでは、2つの異なるデータ型のプライマリフィールドを追加する方法と、Zilliz Cloudを有効にしてプライマリフィールドの値を自動的に割り当てる方法を紹介します。
密集ベクトル [READ MORE]
密集ベクトルは、機械学習やデータ分析で広く使用されている数値データ表現です。実数の配列で構成され、ほとんどまたはすべての要素が非ゼロです。疎ベクトルと比較して、密集ベクトルは、各次元が意味のある値を保持するため、同じ次元レベルでより多くの情報を含んでいます。この表現により、複雑なパターンや関係を効果的に捉えることができ、データを高次元空間で分析および過程化することが容易になります。密集ベクトルには通常、特定のアプリケーションや要件に応じて、数十から数百、さらには数千の固定された次元があります。
バイナリベクトル [READ MORE]
バイナリベクトルは、従来の高次元浮動小数点ベクトルを0と1のみを含むバイナリベクトルに変換する特別な形式のデータ表現です。この変換により、ベクトルの体格が圧縮されるだけでなく、意味情報を保持しながらストレージおよび計算コストが削減されます。非重要な特徴の精度が必要でない場合、バイナリベクトルは、元の浮動小数点ベクトルのほとんどの整合性と有用性を効果的に維持できます。
疎ベクトル [READ MORE]
疎ベクトルは、情報検索や自然言語処理におけるデータ表現の重要な方法です。密ベクトルは、優れた意味理解能力のために人気がありますが、疎ベクトルは、キーワードやフレーズの正確なマッチングが必要なアプリケーションにおいて、より正確な結果を提供することがよくあります。
文字列フィールド [READ MORE]
Zilliz Cloudクラスターでは、`VARCHAR`は可変長文字列を格納するために使用されるデータ型です。シングルバイト文字とマルチバイト文字の両方の文字列を格納でき、最大長は60,535文字です。`VARCHAR`フィールドを定義する場合、最大長パラメータ`maxlength`も指定する必要があります。`VARCHAR`文字列型は、テキストデータを効率的かつ柔軟に格納および管理する方法を提供するため、さまざまな長さの文字列を処理するアプリケーションに最適です。
数字フィールド [READ MORE]
数値フィールドは、ベクトル以外の数値データをZilliz Cloudクラスターに格納するために使用されます。これらのフィールドは通常、年齢、価格などのベクトルデータに関連する追加情報を記述するために使用されます。このデータを使用することで、ベクトルをより正確に記述し、データフィルタリングや条件付きクエリの効率を向上させることができます。
JSONフィールド [READ MORE]
JSONは、複雑なデータ構造を格納およびクエリする柔軟な方法を提供する軽量データ交換形式です。Zilliz Cloudクラスターでは、JSONフィールドを使用してベクトルデータと一緒に追加の構造化情報を格納でき、ベクトルの類似性と構造化フィルタリングを組み合わせた高度な検索およびクエリが可能になります。
配列フィールド [READ MORE]
Array型は、同じデータ型の複数の値を含むフィールドを格納するために使用されます。複数の要素を持つ属性を格納する柔軟な方法を提供し、関連するデータのセットを保存する必要があるシナリオで特に役立ちます。Zilliz Cloudクラスターでは、Arrayフィールドをベクトルデータと一緒に格納でき、より複雑なクエリやフィルタリング要件を可能にします。
ダイナミックフィールド [READ MORE]
コレクションのスキーマで定義されたすべてのフィールドは、挿入するエンティティに含める必要があります。一部のフィールドをオプションにしたい場合は、動的フィールドを有効にすることを検討してください。このトピックでは、動的フィールドを有効にして使用する方法について説明します。
Nullableデフォルト [READ MORE]
Zilliz Cloudを使用すると、プライマリフィールドを除くスカラーフィールドの`nullable`属性とデフォルト値を設定できます。`nullable=True`としてマークされたフィールドの場合、データを挿入するときにフィールドをスキップするか、直接null値に設定すると、システムはエラーを引き起こすことなくnullとして扱います。フィールドにデフォルト値がある場合、挿入中にフィールドにデータが指定されていない場合、システムは自動的にこの値を適用します。
アナライザ [READ MORE]
テキスト処理において、アナライザーは生のテキストを構造化された検索可能な形式に変換する重要なコンポーネントです。各アナライザーは通常、トークナイザーとフィルターの2つのコア要素で構成されています。これらを組み合わせることで、入力テキストをトークンに変換し、これらのトークンを改良し、効率的なインデックス作成と取得のために準備します。この章では、Zilliz Cloudでアナライザーを使用する方法について、詳しく説明します。
コレクションフィールドを変更する [READ MORE]
コレクションフィールドのプロパティを変更して、列の制約を変更したり、より厳格なデータ整合性ルールを適用したりできます。
スキーマデザインハンズオン [READ MORE]
情報検索(IR)システムは、検索エンジンとしても知られており、検索拡張生成(RAG)、画像検索、製品推薦などのさまざまなAIアプリケーションに不可欠です。IRシステムを開発する最初のステップは、ビジネス要件を分析し、情報をどのように整理するかを決定し、データを意味的に検索可能にするためにインデックス化するデータモデルの設計です。