Hdfs コネクタリファレンス

設定


Hdfs

名前 説明 デフォルト値 必須

Name (名前)

String (文字列)

この設定の名前。コネクタはこの名前の設定を参照します。

x

Connection (接続)

この設定に指定できる接続型。

x

Expiration Policy (有効期限ポリシー)

ランタイムで有効期限の対象とみなされるまで、動的設定インスタンスがアイドル状態を維持できる最小時間を設定します。これは、対象になった瞬間にプラットフォームでインスタンスの有効期限が切れるという意味ではありません。ランタイムによって適切と判断されたときに、インスタンスが実際にパージされます。

接続種別

Kerberos
名前 説明 デフォルト値 必須

Username (ユーザ名)

String (文字列)

Kerberos プリンシパル。これは、「hadoop.job.ugi」設定エントリとして HDFS クライアントに渡されます。これは、configurationResources および configurationEntries の値で上書きできます。XML に何が表示されるかという観点で後方互換性を維持する理由で、これをユーザ名と呼びます。

Keytab Path (Keytab パス)

String (文字列)

ユーザ名に関連付けられた <a href="https://web.mit.edu/kerberos/krb5-1.12/doc/basic/keytab_def.html">keytab ファイル</a>へのパス。これを使用して、「認証サーバ」から TGT を取得します。指定しない場合、ローカルの kerberos キャッシュ内でユーザ名に関連付けられた TGT が検索されます。

Name Node Uri (名前ノード URI)

String (文字列)

接続先のファイルシステムの名前。これは、{FileSystem#FS_DEFAULT_NAME_KEY} 設定エントリとして HDFS クライアントに渡されます。これは、configurationResources および configurationEntries の値で上書きできます。

x

Configuration Resources (設定リソース)

Array of String (文字列の配列)

HDFS クライアントが読み込む設定リソースファイルの java.util.List。ここでは、追加の設定ファイルを提供できます。 (例: ccore-site.xml)。

Configuration Entries (設定エントリ)

Object (オブジェクト)

HDFS クライアントが使用する設定エントリの java.util.Map。ここでは、追加の設定エントリをキー/値のペアとして提供できます。

Reconnection (再接続)

アプリケーションがデプロイされたときに、すべてのコネクタで接続テストが実行されます。true に設定されている場合、関連する再接続戦略をすべて実行した後にテストに合格しないと、デプロイが失敗します。

簡易
名前 説明 デフォルト値 必須

Username (ユーザ名)

String (文字列)

Hadoop が HDFS 内の権限用に使用するユーザ ID。 簡易認証を使用する場合、Hadoop では、ユーザを HADOOP_USER_NAME というシステムプロパティとして設定する必要があります。この項目を入力する場合、コネクタによりこの項目は自動的に設定されますが、ユーザが自分で設定することもできます。この変数が設定されていない場合、Hadoop は、現在ログインしている OS ユーザを使用します。

Name Node Uri (名前ノード URI)

String (文字列)

接続先のファイルシステムの名前。これは、{FileSystem#FS_DEFAULT_NAME_KEY} 設定エントリとして HDFS クライアントに渡されます。これは、configurationResources および configurationEntries の値で上書きできます。

x

Configuration Resources (設定リソース)

Array of String (文字列の配列)

HDFS クライアントが読み込む設定リソースファイルの java.util.List。ここでは、追加の設定ファイルを提供できます。(例: ccore-site.xml)。

Configuration Entries (設定エントリ)

Object (オブジェクト)

HDFS クライアントが使用する設定エントリの java.util.Map。ここでは、追加の設定エントリをキー/値のペアとして提供できます。

Reconnection (再接続)

アプリケーションがデプロイされたときに、すべてのコネクタで接続テストが実行されます。true に設定されている場合、関連する再接続戦略をすべて実行した後にテストに合格しないと、デプロイが失敗します。

関連付けられたソース

操作

Append

<hdfs:append>

現在のペイロードを、指定されたパスに配置されているファイルに追加します。注意: デフォルトでは、Hadoop サーバの append (添付) オプションは無効になっています。既存のファイルに任意のデータを追加できるようにするには、dfs.support.append 設定パラメータを参照してください。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

書き込み先のファイルのパス。

x

Buffer Size (バッファサイズ)

Number (数値)

ファイルへの追加時に使用するバッファサイズ。

4096

Payload (ペイロード)

Binary (バイナリ)

ファイルに追加するペイロード。

#[payload]

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Copy From Local File

<hdfs:copy-from-local-file>

ローカルディスク上のソースファイルを、指定した対象パスの FileSystem にコピーします。ソースを削除する必要がある場合は deleteSource を設定します。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Delete Source (ソースを削除)

Boolean (ブール)

ソースを削除するかどうか。

false

Overwrite (上書き)

Boolean (ブール)

宛先のコンテンツを上書きするかどうか。

true

Source (ソース)

String (文字列)

ファイルシステム上のソースパス。

x

Destination (宛先)

String (文字列)

ローカルディスク上の対象パス。

x

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Copy To Local File

<hdfs:copy-to-local-file>

FileSystem 上のソースファイルを、指定した対象パスのローカルディスクにコピーします。ソースを削除する必要がある場合は deleteSource を設定します。useRawLocalFileSystem は、CRC 以外のファイルシステムの場合に RawLocalFileSystem を使用するかどうかを示します。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Delete Source (ソースを削除)

Boolean (ブール)

ソースを削除するかどうか。

false

Use Raw Local File System (未加工のローカルファイルシステムを使用)

Boolean (ブール)

RawLocalFileSystem をローカルファイルシステムとして使用するかどうか。

false

Source (ソース)

String (文字列)

ファイルシステム上のソースパス。

x

Destination (宛先)

String (文字列)

ローカルディスク上の対象パス。

x

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Delete Directory

<hdfs:delete-directory>

指定したパスに配置されているファイルまたはディレクトリを削除します。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

削除するファイルのパス。

x

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Delete File

<hdfs:delete-file>

指定したパスに配置されているファイルまたはディレクトリを削除します。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

削除するファイルのパス。

x

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Get Metadata

<hdfs:get-metadata>

パスのメタデータを取得します。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

削除するファイルのパス。

x

Target Variable (対象変数)

String (文字列)

操作の出力が保存される変数の名前。

Target Value (対象値)

String (文字列)

操作の出力に対して評価する式。その式の結果は対象変数に保存されます。

#[payload]

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

出力

Type (型)

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Glob Status

<hdfs:glob-status>

ファイルパターンに一致し、チェックサムファイルではないすべてのファイルを返します。結果はその名前で並び替えられます。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path Pattern (パスパターン)

String (文字列)

パスパターンを指定する正規表現。

x

Filter (検索条件)

String (文字列)

ユーザが提供するパス検索条件。

Target Variable (対象変数)

String (文字列)

操作の出力が保存される変数の名前。

Target Value (対象値)

String (文字列)

操作の出力に対して評価する式。その式の結果は対象変数に保存されます。

#[payload]

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

出力

Type (型)

次の設定の場合

スロー

  • HDFS:CONNECTIVITY

  • HDFS:RETRY_EXHAUSTED

List Status

<hdfs:list-status>

指定したパスがディレクトリの場合、パス内のファイル/ディレクトリの状況を表示します。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

特定のパス

x

Filter (検索条件)

String (文字列)

ユーザが提供するパス検索条件。

Target Variable (対象変数)

String (文字列)

操作の出力が保存される変数の名前。

Target Value (対象値)

String (文字列)

操作の出力に対して評価する式。その式の結果は対象変数に保存されます。

#[payload]

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

出力

Type (型)

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Make Directories

<hdfs:make-directories>

指定したファイルおよび存在しないすべての親をディレクトリに作成します。UNIX の「mkdir -p」のセマンティクスを持ちます。ディレクトリ階層の存在はエラーではありません。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

ディレクトリを作成するパス。

x

Permission (権限)

String (文字列)

ディレクトリの作成時に使用する、8 進形式または記号形式 (umask) のファイルシステム権限。

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Read Operation

<hdfs:read-operation>

パスで指定されたファイルの内容を読み取り、残りのフローに流し込みます。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

読み取るファイルのパス。

x

Buffer Size (バッファサイズ)

Number (数値)

ファイルの読み取り時に使用するバッファサイズ。

4096

Streaming Strategy (ストリーミング戦略)

反復可能なストリームを使用するかどうかと、それらの動作を設定します。

Target Variable (対象変数)

String (文字列)

操作の出力が保存される変数の名前。

Target Value (対象値)

String (文字列)

操作の出力に対して評価する式。その式の結果は対象変数に保存されます。

#[payload]

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

出力

Binary (バイナリ)

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Rename

<hdfs:rename>

パスの対象をパスの宛先に名前変更します。*

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Source (ソース)

String (文字列)

名前変更前の元のパス。

x

Destination (宛先)

String (文字列)

名前変更後の新しいパス。

x

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Set Owner

<hdfs:set-owner>

パス (ファイルまたはディレクトリ) の所有者を設定します。ユーザ名とグループ名の両方のパラメータを null にすることはできません。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

所有者を設定するファイルまたはディレクトリのパス。

x

Ownername (所有者名)

String (文字列)

null の場合、元のユーザ名は変更されません。

x

Groupname (グループ名)

String (文字列)

null の場合、元のグループ名は変更されません。

x

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Set Permission

<hdfs:set-permission>

パス (ファイルまたはディレクトリ) の権限を設定します。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

権限を設定するファイルまたはディレクトリのパス。

x

Permission (権限)

String (文字列)

設定するファイルシステム権限。

x

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Write

<hdfs:write>

新しいファイルを作成するか、既存のファイルに追加する方法で、現在のペイロードを、指定したパスに書き込みます。

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

書き込み先のファイルのパス。

x

Permission (権限)

String (文字列)

新しいファイルを作成する場合に使用する、8 進形式または記号形式 (umask) のファイルシステム権限。

700

Overwrite (上書き)

Boolean (ブール)

既存のファイルを新しいコンテンツで上書きするかどうか。

true

Buffer Size (バッファサイズ)

Number (数値)

ファイルへの追加時に使用するバッファサイズ。

4096

Replication (複製)

Number (数値)

ファイルのブロック複製。

1

Block Size (ブロックサイズ)

Number (数値)

ファイルへの追加時に使用するバッファサイズ。

1048576

Owner User Name (所有者ユーザ名)

String (文字列)

ファイルのユーザ名の所有者。

Owner Group Name (所有者グループ名)

String (文字列)

ファイルのグループの所有者。

Payload (ペイロード)

Binary (バイナリ)

ファイルに書き込むペイロード。

#[payload]

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

次の設定の場合

スロー

  • HDFS:INVALID_STRUCTURE_FOR_INPUT_DATA

  • HDFS:CONNECTIVITY

  • HDFS:CONNECTIVITY

  • HDFS:INVALID_REQUEST_DATA

  • HDFS:RETRY_EXHAUSTED

  • HDFS:UNKNOWN

Sources (ソース)

Read

<hdfs:read>

名前 説明 デフォルト値 必須

Configuration (設定)

String (文字列)

使用する設定の名前。

x

Path (パス)

String (文字列)

パスで指定されたファイルの内容を読み取ります。

x

Buffer Size (バッファサイズ)

Number (数値)

4096

Redelivery Policy (再配信ポリシー)

同じメッセージの再配信を処理するためのポリシーを定義します。

Streaming Strategy (ストリーミング戦略)

反復可能なストリームを使用するかどうかと、それらの動作を設定します。

Reconnection Strategy (再接続戦略)

接続エラーが発生した場合の再試行戦略。

出力

Any (いずれか)

Attributes Type (属性型)

Any (任意)

次の設定の場合

Reconnection (再接続)

項目 説明 デフォルト値 必須

Fails Deployment (デプロイに失敗)

Boolean

アプリケーションがデプロイされたときに、すべてのコネクタで接続テストが実行されます。true に設定されている場合、関連する再接続戦略をすべて実行した後にテストに合格しないと、デプロイが失敗します。

Reconnection Strategy (再接続戦略)

使用する再接続戦略。

Reconnect (再接続)

項目 説明 デフォルト値 必須

Frequency (頻度)

Number (数値)

再接続する頻度 (ミリ秒)。

Count (カウント)

Number (数値)

再接続の試行回数。

Reconnect Forever (繰り返し再接続)

項目 説明 デフォルト値 必須

Frequency (頻度)

Number (数値)

再接続する頻度 (ミリ秒)。

Expiration Policy (有効期限ポリシー)

項目 説明 デフォルト値 必須

Max Idle Time (最大アイドル時間)

Number (数値)

有効期限の対象とみなされるまで、動的設定インスタンスがアイドル状態を維持できる最大時間のスカラー時間値。

Time Unit (時間単位)

Enumeration (列挙)。次のいずれか:

  • NANOSECONDS (ナノ秒)

  • MICROSECONDS (マイクロ秒)

  • MILLISECONDS (ミリ秒)

  • SECONDS (秒)

  • MINUTES (分)

  • HOURS (時)

  • DAYS (日)

maxIdleTime 属性に使用できる時間単位。

Redelivery Policy (再配信ポリシー)

項目 説明 デフォルト値 必須

Max Redelivery Count (最大再配信数)

Number (数値)

正常に処理されずにプロセス失敗メッセージがトリガされるまでにメッセージを再配信できる最大回数。

Use Secure Hash (セキュアハッシュを使用)

Boolean (ブール)

再配信されたメッセージの識別にセキュアハッシュアルゴリズムを使用するかどうか。

Message Digest Algorithm (メッセージダイジェストアルゴリズム)

String (文字列)

使用するセキュアハッシュアルゴリズム。設定しない場合、デフォルトの SHA-256 になります。

Id Expression (ID 式)

String (文字列)

メッセージがいつ再配信されたのかを判断するために使用する 1 つ以上の式を定義します。このプロパティは、useSecureHash が false の場合にのみ設定できます。

Object Store (オブジェクトストア)

各メッセージの再配信カウンタが保存されるオブジェクトストア。

Repeatable In Memory Stream (反復可能なメモリ内ストリーム)

項目 説明 デフォルト値 必須

Initial Buffer Size (初期バッファサイズ)

Number (数値)

これは、ストリームを消費し、ストリームへのランダムアクセスを提供する目的で割り当てられるメモリの容量です。ストリームに含まれているデータがこのバッファに適合できる量を超えている場合、bufferSizeIncrement 属性に従って拡張され、上限は maxInMemorySize となります。

Buffer Size Increment (バッファサイズ増分)

Number (数値)

バッファサイズが初期サイズを超えた場合に、どれくらい拡張されるか。0 以下の値を設定すると、バッファは拡張されません。つまり、バッファがいっぱいになると STREAM_MAXIMUM_SIZE_EXCEEDED エラーが発生します。

Max Buffer Size (最大バッファサイズ)

Number (数値)

使用するメモリの最大量。これより大きい値が使用されると、STREAM_MAXIMUM_SIZE_EXCEEDED エラーが発生します。0 以下の値は無制限を意味します。

Buffer Unit (バッファ単位)

Enumeration (列挙)。次のいずれか:

  • BYTE (バイト)

  • KB (キロバイト)

  • MB (メガバイト)

  • GB (ギガバイト)

これらのすべての属性の単位。

Repeatable File Store Stream (反復可能なファイルストアストリーム)

項目 説明 デフォルト値 必須

Max In Memory Size (最大メモリ内サイズ)

Number (数値)

データをメモリ内に保持するためにストリームで使用する最大メモリを定義します。これを超えると、ディスクへのコンテンツのバッファが開始されます。

Buffer Unit (バッファ単位)

Enumeration (列挙)。次のいずれか:

  • BYTE (バイト)

  • KB (キロバイト)

  • MB (メガバイト)

  • GB (ギガバイト)

maxInMemorySize で表される単位。

Meta Data (メタデータ)

項目 説明 デフォルト値 必須

Check Summary (確認の概要)

Content Summary (コンテンツの概要)

File Status (ファイルの状況)

Path Exists (パスが存在)

Boolean (ブール)

Check Summary (確認の概要)

項目 説明 デフォルト値 必須

Bytes Per CRC (CRC ごとのバイト)

Number (数値)

Crc Per Block (ブロックごとの CRC)

Number (数値)

Md5 (MD5)

String (文字列)

Content Summary (コンテンツの概要)

項目 説明 デフォルト値 必須

Directory Count (ディレクトリ数)

Number (数値)

File Count (ファイル数)

Number (数値)

Length (長さ)

Number (数値)

Snapshot Directory Count (スナップショットのディレクトリ数)

Number (数値)

Snapshot File Count (スナップショットのファイル数)

Number (数値)

Snapshot Length (スナップショットの長さ)

Number (数値)

Snapshot Space Consumed (コンシュームしたスナップショット容量)

Number (数値)

File Status (ファイルの状況)

項目 説明 デフォルト値 必須

Access Time (アクセス時間)

Number (数値)

Block Replication (ブロック複製)

Number (数値)

Block Size (ブロックサイズ)

Number (数値)

Directory (ディレクトリ)

Boolean (ブール)

Group (グループ)

String (文字列)

Length (長さ)

Number (数値)

Modification Time (変更時間)

Number (数値)

Owner (所有者)

String (文字列)

Path (パス)

String (文字列)

Permission (権限)

String (文字列)

Symbolic Link (シンボリックリンク)

Boolean (ブール)

Was this article helpful?

💙 Thanks for your feedback!

Edit on GitHub