メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

NumPyファイルからのインポート

.npy 形式は、NumPyの標準バイナリ形式であり、単一の配列(そのshapeおよびdtype情報も含む)を保存するためのものです。これにより、異なるマシン上でも正しく再構築できます。生データをParquetファイルに変換するには、BulkWriterツールの使用を推奨します。以下の図は、生データが一連の .npy ファイルにどのようにマッピングされるかを示しています。

🚧Caution

この機能は非推奨になりました。本番環境での使用は推奨されません。

numpy_file_structure

📘Notes
  • AutoIDを有効にするかどうか

id フィールドはコレクションの主キー(primary field)として機能します。主キーを自動的にインクリメントさせるには、スキーマ内で AutoID を有効化できます。この場合、ソースデータの各行から id フィールドを除外する必要があります。

  • 動的フィールドを有効にするかどうか

ターゲットコレクションで動的フィールドが有効になっている場合、事前に定義されたスキーマに含まれないフィールドを保存する必要があるときは、書き込み操作時に $meta 列を指定し、対応するキーと値のデータを提供できます。

  • 大文字・小文字を区別する

辞書のキーおよびコレクションのフィールド名は大文字・小文字を区別します。データ内の辞書キーがターゲットコレクションのフィールド名と完全に一致していることを確認してください。たとえば、ターゲットコレクションに id という名前のフィールドがある場合、各エンティティ辞書には id というキーが必要です。IDId を使用するとエラーになります。

ディレクトリ構造

データをNumPyファイルとして準備するには、同じサブセットに属するすべてのファイルを1つのフォルダ内に配置し、それらのフォルダをソースフォルダ内にまとめてください。以下のツリーダイアグラムに示すとおりです。

├── numpy-folders
│ ├── 1
│ │ ├── id.npy
│ │ ├── vector.npy
│ │ ├── scalar_1.npy
│ │ ├── scalar_2.npy
│ │ └── $meta.npy
│ └── 2
│ ├── id.npy
│ ├── vector.npy
│ ├── scalar_1.npy
│ ├── scalar_2.npy
│ └── $meta.npy

データのインポート

データの準備が完了したら、以下のいずれかの方法で Zilliz Cloud コレクションにデータをインポートできます。

📘Notes

ファイルが比較的小さい場合は、フォルダまたは複数パス方式を使用して一度にすべてをインポートすることを推奨します。この方法により、インポート処理中に内部で最適化が行われ、後続のリソース消費を削減できます。

また、Zilliz Cloud コンソールや Milvus SDK を使用してデータをインポートすることもできます。詳細については、データのインポート(コンソール) および データのインポート(SDK) を参照してください。

複数のパスからファイルをインポートする際は、各 NumPy ファイルフォルダのパスを個別のリストに含め、それらすべてのリストをより上位のリストにまとめてください。次のコード例を参照してください。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/numpy-folder-1/1/"],
["s3://bucket-name/numpy-folder-2/1/"],
["s3://bucket-name/numpy-folder-3/1/"]
],
"accessKey": "",
"secretKey": ""
}'

NumPyファイルフォルダからファイルをインポートする

ソースフォルダにインポートするNumPyファイルフォルダのみが含まれている場合、リクエストに次のようにしてソースフォルダをそのまま含めることができます:

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/numpy-folder/1/"]
],
"accessKey": "",
"secretKey": ""
}'
📘Notes

フォルダーに複数の形式のファイルが含まれている場合、リクエストは失敗します。

Storage paths

Zilliz Cloud は、クラウドストレージからのデータインポートをサポートしています。以下の表に、データファイルの可能なストレージパスを示します。

Cloud

Quick Examples

AWS S3

s3://bucket-name/numpy-folder/

Google Cloud Storage

gs://bucket-name/numpy-folder/

Azure Bolb

https://myaccount.blob.core.windows.net/bucket-name/numpy-folder/

制限

クラウドストレージから NumPy ファイルでデータをインポートする際に遵守すべきいくつかの制限があります。

📘Notes

有効な NumPy ファイルのセットは、ターゲットコレクションのスキーマ内のフィールド名に従って命名され、その中のデータは対応するフィールド定義と一致している必要があります。

Import 方法

Max Subdirectories per Import

Max Size per Subdirectory

Max Total Import Size

From local file

Not supported

From object storage

1,000 subdirectories

10 GB

1 TB

データの準備 を参照して自分でデータを再構築するか、BulkWriter ツール を使用してソースデータファイルを生成できます。上記の図のスキーマに基づいて準備されたサンプルデータをダウンロードするには、こちらをクリックしてください