メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

NumPyファイルからのインポート

.npy形式は、形状とデータ型情報を含む単一配列を保存するためのNumPyの標準バイナリフォーマットであり、異なるマシン上で正しく再構成できることを保証します。生データをParquetファイルに変換するには、バッチライターツールの使用をお勧めします。以下の図は、生データを一連の.npyファイルにどのようにマッピングできるかを示しています。

🚧注意

この機能は非推奨になりました。本番環境で使用することは推奨されません。

numpy_file_structure

📘注意
  • AutoIDを有効にするかどうか

idフィールドはコレクションの主フィールドとして機能します。主フィールドを自動的にインクリメントするには、スキーマでAutoIDを有効にできます。この場合、ソースデータの各行からidフィールドを除外する必要があります。

  • 動的フィールドを有効にするかどうか

ターゲットコレクションで動的フィールドが有効になっている場合、事前定義されたスキーマに含まれていないフィールドを保存する必要がある場合は、書き込み操作中に$meta列を指定し、対応するキーと値のデータを提供できます。

  • 大文字と小文字の区別

辞書キーとコレクションフィールド名は大文字と小文字を区別します。データ内の辞書キーがターゲットコレクションのフィールド名と完全に一致していることを確認してください。ターゲットコレクションにidという名前のフィールドがある場合、各エンティティ辞書にはidという名前のキーが含まれている必要があります。IDIdを使用するとエラーになります。

ディレクトリ構造

データをNumPyファイルとして準備するには、同じサブセットからのすべてのファイルをフォルダに配置し、その後、これらのフォルダをソースフォルダ内にグループ化します。以下のツリー図を参照してください。

├── numpy-folders
│ ├── 1
│ │ ├── id.npy
│ │ ├── vector.npy
│ │ ├── scalar_1.npy
│ │ ├── scalar_2.npy
│ │ └── $meta.npy
│ └── 2
│ ├── id.npy
│ ├── vector.npy
│ ├── scalar_1.npy
│ ├── scalar_2.npy
│ └── $meta.npy

データのインポート

データの準備ができたら、以下のいずれかの方法を使用してZilliz Cloudコレクションにインポートできます。

📘注意

ファイルが比較的小さな場合は、フォルダまたは複数パスの方法を使用して一度にすべてをインポートすることをお勧めします。この方法により、インポートプロセス中に内部的な最適化が可能になり、後のリソース消費を減らすのに役立ちます。

Zilliz CloudコンソールまたはMilvus SDKを使用してデータをインポートすることもできます。詳細については、データのインポート(コンソール) および データのインポート(SDK) を参照してください。

複数のパスからファイルをインポートする場合は、各NumPyファイルフォルダパスを別々のリストに含め、その後ですべてのリストを上位のリストにグループ化します。以下のコード例を参照してください。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/numpy-folder-1/1/"],
["s3://bucket-name/numpy-folder-2/1/"],
["s3://bucket-name/numpy-folder-3/1/"]
],
"accessKey": "",
"secretKey": ""
}'

NumPyファイルフォルダからのファイルインポート

ソースフォルダにインポートするNumPyファイルフォルダのみが含まれている場合は、以下のようにリクエストにソースフォルダを単純に含めることができます。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/numpy-folder/1/"]
],
"accessKey": "",
"secretKey": ""
}'

ストレージパス

Zilliz Cloudはクラウドストレージからのデータインポートをサポートしています。以下の表は、データファイルの可能性のあるストレージパスを示しています。

クラウド

クイック例

AWS S3

s3://bucket-name/numpy-folder/

Google Cloud Storage

gs://bucket-name/numpy-folder/

Azure Blob

https://myaccount.blob.core.windows.net/bucket-name/numpy-folder/

制限事項

クラウドストレージからNumPyファイルでデータをインポートする際には、いくつかの制限事項に注意する必要があります。

📘注意

有効なNumPyファイルセットは、ターゲットコレクションのスキーマ内のフィールド名に従って名前が付けられる必要があり、それらのデータは対応するフィールド定義と一致している必要があります。

インポート方法

1回のインポートあたりの最大サブディレクトリ数

サブディレクトリごとの最大サイズ

最大合計インポートサイズ

ローカルファイルから

サポートされていません

オブジェクトストレージから

1,000サブディレクトリ

10GB

1TB

データファイルの準備を参照して独自にデータを再構築するか、バッチライターツールを使用してソースデータファイルを生成できます。上記図のスキーマに基づいて準備されたサンプルデータをダウンロードするにはこちらをクリックしてください