DataGrip 2024.1 ヘルプ

カスタム Spark クラスター

Spark 実行構成を送信するでは、AWS EMR または Dataproc をリモートサーバーとして使用してアプリケーションを実行できます。これら 2 つのオプションに加えて、独自のカスタム Spark クラスターを構成することもできます。リモートサーバーに接続するための SSH 構成をセットアップし、オプションで Spark 履歴サーバーへの接続と SFTP 接続を構成します。

カスタム Spark クラスターの作成

  1. ビッグデータツールウィンドウで Add a connection をクリックし、カスタム Spark クラスターを選択します。

  2. 開いたウィンドウの最初のステップで、SSH 構成を選択し、次へをクリックします。この SSH 構成は、spark-submit がインストールされているサーバーに接続するために使用されます。

    Select Spark Submit
  3. IDE で Spark ジョブを監視する場合は、ウィザードの 2 番目のステップで、Spark 履歴サーバーへの接続を確立するためのパラメーターを指定します。カスタムパラメーターを指定するか、デフォルト設定を使用します。これにより、SSH トンネリングを使用して localhost:18080 への接続が作成されます。

    それ以外の場合は、Spark 履歴サーバーへの接続は必要ありませんを選択します。

    Select Spark Submit
  4. Spark クラスターへの SFTP 接続が必要な場合は、ウィザードの 3 番目のステップでその設定を指定します。

    それ以外の場合は、ドライバーノードへの SFTP 接続は必要ありませんを選択します。

    Select Spark Submit

Spark 履歴と SFTP 接続の両方を設定している場合は、ビッグデータツールツールウィンドウのカスタム Spark クラスターで使用できるようになります。

Select Spark Submit

これで、このクラスターを Spark 実行構成を送信するのリモートターゲットとして選択できるようになりました。この実行構成を起動すると、アプリケーション出力のリンクをクリックして、サービスツールウィンドウで Spark ジョブを開くことができます。

関連ページ:

Spark 実行構成を送信する

Spark プラグインを使用すると、Spark クラスター上でアプリケーションを実行できます。DataGrip は、Spark の bin ディレクトリで spark-submit スクリプトを実行するための実行 / デバッグ構成を提供します。アプリケーションはローカルで実行することも、SSH 構成を使用して実行することもできます。Spark プラグインをインストールするこの機能は、インストールして有効にする必要がある Spark プラグインに依存しています。を押して設定を開き、を選択します。マーケットプ...

Spark モニタリング

Spark プラグインを使用すると、Spark クラスターと送信されたジョブを IDE で直接監視できます。この章では:Spark サーバーへの接続を最初から確立する、Zeppelin ノートブックから Spark への接続を確立する、ジョブグラフの表示、監視データを除外する、Spark サーバーに接続するビッグデータツールウィンドウでクリックし、Spark を選択します。開いたビッグデータツールダイアログで、接続パラメーターを指定します。名前: 他の接続と区別するための接続の名前。URL: Spa...

Kafka

Kafka プラグインを使用すると、Kafka イベントストリーミングプロセスを監視し、コンシューマー、プロデューサー、トピックを作成できます。また、スキーマレジストリに接続し、スキーマを作成および更新することもできます。Kafka プラグインをインストールするこの機能は、インストールして有効にする必要がある Kafka プラグインに依存しています。を押して設定を開き、を選択します。マーケットプレースタブを開き、Kafka プラグインを見つけて、インストールをクリックします (プロンプトが表示されたら、...