NumPyファイルからのインポートAbout to Deprecate
.npy形式は、NumPyの標準バイナリ形式で、単一の配列をその形状とdtype情報を含めて保存し、異なるマシンで正しく再構築できるようにします。生データをParquetファイルに準備するには、BulkWriterツールを使用することをお勧めします。以下の図は、生データがどのように.npyファイルのセットにマッピングされるかを示しています。
この機能は非推奨です。本番環境での使用は推奨されません。

- AutoIDを有効にするかどうか
idフィールドはコレクションのプライマリフィールドとして機能します。プライマリフィールドを自動的にインクリメントするには、スキーマでAutoIDを有効にできます。この場合、ソースデータの各行からidフィールドを除外する必要があります。
- 動的フィールドを有効にするかどうか
ターゲットコレクションが動的フィールドを有効にしている場合、事前定義されたスキーマに含まれていないフィールドを保存する必要がある場合は、書き込み操作中に$meta列を指定し、対応するキーと値のデータを提供できます。
- 大文字と小文字の区別
辞書のキーとコレクションのフィールド名は大文字と小文字を区別します。データ内の辞書のキーがターゲットコレクションのフィールド名と正確に一致していることを確認してください。ターゲットコレクションにidという名前のフィールドがある場合、各エンティティ辞書にはidという名前のキーが必要です。IDまたはIdを使用するとエラーが発生します。
ディレクトリ構造
データをNumPyファイルとして準備するには、同じサブセットのすべてのファイルをフォルダーに入れ、次にこれらのフォルダーをソースフォルダー内にグループ化します。以下のツリー図に示します。
├── numpy-folders
│ ├── 1
│ │ ├── id.npy
│ │ ├── vector.npy
│ │ ├── scalar_1.npy
│ │ ├── scalar_2.npy
│ │ └── $meta.npy
│ └── 2
│ ├── id.npy
│ ├── vector.npy
│ ├── scalar_1.npy
│ ├── scalar_2.npy
│ └── $meta.npy
データインポート
データが準備できたら、以下のいずれかの方法を使用してZilliz Cloudコレクションにインポートできます。
ファイルが比較的小さい場合は、フォルダまたは複数パスの方法を使用して、すべてを一度にインポートすることをお勧めします。このアプローチにより、インポートプロセス中に内部最適化が可能になり、後のリソース消費を削減できます。
Zilliz CloudコンソールでMilvus SDKを使用してデータをインポートすることもできます。詳細については、データのインポート(コンソール)およびデータのインポート(SDK)を参照してください。
NumPyファイルフォルダのリストからファイルをインポートする(推奨)
複数のパスからファイルをインポートする場合、各NumPyファイルフォルダパスを個別のリストに含め、以下のコード例のようにすべてのリストを上位レベルのリストにグループ化します。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/numpy-folder-1/1/"],
["s3://bucket-name/numpy-folder-2/1/"],
["s3://bucket-name/numpy-folder-3/1/"]
],
"accessKey": "",
"secretKey": ""
}'
NumPyファイルフォルダからファイルをインポートする
ソースフォルダにインポートするNumPyファイルフォルダのみが含まれている場合、次のようにリクエストにソースフォルダを含めることができます。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/numpy-folder/1/"]
],
"accessKey": "",
"secretKey": ""
}'
If the folder contains multiple formats of files, the request will fail.
ストレージパス
Zilliz Cloudは、クラウドストレージからのデータインポートをサポートしています。以下の表は、データファイルのストレージパスの可能性を示しています。
Cloud | Quick Examples |
|---|---|
AWS S3 | s3://bucket-name/numpy-folder/ |
Google Cloud Storage | gs://bucket-name/numpy-folder/ |
Azure Bolb | https://myaccount.blob.core.windows.net/bucket-name/numpy-folder/ |
制限
クラウドストレージからNumPyファイルでデータをインポートする際には、いくつかの制限があります。
有効なNumPyファイルのセットは、ターゲットコレクションのスキーマのフィールド名にちなんで名付けられ、その中のデータは対応するフィールド定義と一致する必要があります。
Import 方法 | Cluster Plan | Max Subdirectories per Import | Max Size per Subdirectory | Max Total Import Size |
|---|---|---|---|---|
From local file | Not supported | |||
From object storage | Free | 1,000 subdirectories | 1 GB | 1 GB |
Serverless & Dedicated | 1,000 subdirectories | 10 GB | 1 TB | |
データファイルの準備を参照して自分でデータを再構築するか、BulkWriterツールを使用してソースデータファイルを生成することができます。上記の図のスキーマに基づいた準備済みサンプルデータをダウンロードするには、ここをクリックしてください。