データインポート(コンソール)
このページでは、Zilliz Cloud コンソールで準備したデータをインポートする方法を紹介します。
Web UI でデータをインポートする
データファイルの準備ができたら、ローカルドライブから直接インポートするか、AWS S3 や Google Cloud GCS、Azure Blob Storage などのオブジェクトストレージバケットにアップロートしてデータインポートを行うことができます。
コレクション内で実行中または保留中のインポートジョブは最大 10,000 件まで作成できます。
Web コンソールでは、最大 1 GB のローカル JSON または Parquet ファイルのアップロードをサポートしています。より大きなファイルの場合は、代わりにオブジェクトストレージからのアップロードを推奨します。データインポートで問題が発生した場合は、サポートチケットを作成してください。
ローカルファイル
Zilliz Cloud は、ローカルの JSON または Parquet ファイルからのデータインポートをサポートしています。データが NumPy 形式で準備されている場合は、オブジェクトストレージバケットからインポートしてください。
ローカルファイルからデータをインポートするには、ファイルをアップロードエリアにドラッグまたはドロップし、Import をクリックします。
オブジェクトストレージバケットからのリモートファイル
リモートファイルをインポートするには、まずリモートバケットにアップロードする必要があります。生データをサポートされている形式に簡単に変換し、BulkWriter ツールを使用して結果ファイルをアップロードできます。
準備したファイルをリモートバケットにアップロードしたら、オブジェクトストレージサービスを選択し、リモートバケット内のファイルパスと、Zilliz Cloud がバケットからデータを取得するためのバケット認証情報を入力します。
データセキュリティ要件に応じて、データインポート時に長期認証情報または短期トークンのいずれかを使用できます。
認証情報の取得についての詳細は、以下を参照してください:
-
Amazon S3: 長期認証情報を使用した認証
-
Google Cloud Storage: サービスアカウントの HMAC キーの管理
-
Azure Blob Storage: アカウントアクセスキーの表示
短期トークンの使用についての詳細は、この FAQ を参照してください。
Zilliz Cloud では、クラスタをホストしているクラウドプロバイダに関係なく、任意のオブジェクトストレージサービスから任意の Zilliz Cloud クラスタにデータをインポートできるようになりました。たとえば、AWS S3 バケットから GCP にデプロイされた Zilliz Cloud クラスタにデータをインポートできます。
ボリュームから
-
マネージドボリューム: ローカルファイルが非常に大きい場合(> 1GB)、ファイルをマネージドボリュームにアップロードしてからボリュームからインポートできます。準備したファイルをボリュームにアップロードしたら、ファイルパスをコピーして、コレクションにファイルをインポートし続けます。
-
外部ボリューム: データファイルがクラウドオブジェクトストレージバケットにある場合は、そのバケットにマッピングする外部ボリュームを作成できます。その後、外部ボリュームから直接データをインポートでき、毎回認証情報を提供する必要はありません。
以下のデモでは、マネージドボリュームからデータをインポートする方法を示しています。
結果の確認
インポートジョブの進捗とステータスは、ジョブページで確認できます。
サポートされているオブジェクトパス
適用可能なオブジェクトパスについては、ストレージオプションおよびフォーマットオプションを参照してください。
FAQ
外部ボリュームと外部ストレージからの直接インポートの違いは何ですか?
どちらも独自の S3 または GCS バケットからデータをインポートできます。主な違いは以下の通りです:
-
外部ボリュームでは、AWS S3 バケット、Google Cloud Storage バケット、または Microsoft Azure BLOB ストレージコンテナを Zilliz Cloud と統合して認証情報を管理する必要があります。認証情報は一度設定され、複数のボリュームや操作で再利用されます。データエンジニアはクラウドストレージキーに直接アクセスする必要はありません。
-
直接の外部ストレージインポートでは、各インポートリクエストで認証情報(アクセスキー、シークレットキー)をインラインで提供する必要があります。これは一度きりのインポートにはシンプルですが、認証情報の分離や再利用性は提供しません。