DataGrip 2024.1 ヘルプ

Spark 実行構成を送信する

Spark(英語) プラグインを使用すると、Spark クラスター(英語)上でアプリケーションを実行できます。DataGrip は、Spark の bin ディレクトリで spark-submit(英語) スクリプトを実行するための実行 / デバッグ構成を提供します。アプリケーションはローカルで実行することも、SSH 構成を使用して実行することもできます。

Spark プラグインをインストールする

この機能は、インストールして有効にする必要がある Spark(英語) プラグインに依存しています。

  1. Ctrl+Alt+S を押して設定を開き、プラグインを選択します。

  2. マーケットプレースタブを開き、Spark プラグインを見つけて、インストールをクリックします (プロンプトが表示されたら、IDE を再起動します)。

Spark 送信構成でアプリケーションを実行する

  1. プラグイン設定を開き、FTP/SFTP/WebDAV 接続(例: リモートホストアクセス)プラグインをインストールします。

  2. 実行 | 実行構成の編集に進みます。または、Alt+Shift+F10 を押してから 0 を押します。

  3. 新規構成の追加ボタン(Add a run/debug configuration)をクリックして、Spark 送信 | クラスタを選択します。

  4. 実行構成名を入力します。

  5. リモートターゲットリストで、次のいずれかを実行します。

    • AWS EMR クラスターに接続している場合は、そこにアプリケーションをアップロードできます。

    • SSH 構成がある場合は、それを使用してアプリケーションをカスタムリモートサーバーに送信できます。

    • それ以外の場合は、EMR 接続の追加または SSH 接続の追加をクリックします。

  6. アプリケーション」フィールドで「 Upload local file 」をクリックし、送信するアプリケーションを選択します。

  7. クラス」フィールドに、アプリケーションのメインクラスの名前を入力します。

    Spark Run Configuration
  8. オプションのパラメーターを指定することもできます。

    • 実行引数 : アプリケーションを実行するための引数。

    • Spark の設定で、次のように設定します。

      • クラスターマネージャー : クラスター上でアプリケーションを実行するための管理方法を選択します。SparkContext は、いくつかのタイプのクラスターマネージャー (Spark 独自のスタンドアロンクラスターマネージャー、Mesos、YARN のいずれか) に接続できます。詳細については、クラスターモードの概要(英語)を参照してください。

      • デプロイモード : クラスターまたはクライアント。

      • アップロード先ディレクトリ : 実行可能ファイルをアップロードするためのリモートホスト上のディレクトリ。

      • Spark ホーム : Spark インストールディレクトリへのパス。

      • 構成 : key=value 形式の任意の Spark 構成プロパティ。

      • プロパティファイル : Spark プロパティを持つファイルへのパス。

    • 依存関係で、アプリケーションの実行に必要なファイルとアーカイブ (jar) を選択します。

    • Maven で、Maven 固有の依存関係を選択します。リポジトリを追加したり、実行コンテキストから一部のパッケージを除外したりできます。

    • ドライバーで、ドライバープロセスに使用するメモリ量などの Spark ドライバー設定を選択します。クラスターモードの場合は、コア数を指定することも可能です。

    • 実行者で、メモリ量やコア数などのエグゼキュータ設定を選択します。

    • Kerberos: Kerberos との安全な接続を確立するための設定。

    • シェルオプション : Spark サブミットの前にスクリプトを実行する場合に選択します。

      bash へのパスを入力し、実行するスクリプトを指定します。スクリプトへの絶対パスを指定することをお勧めします。

      スクリプトをインタラクティブモードで起動する場合は、対話式チェックボックスを選択します。USER=jetbrains などの環境変数を指定することもできます。

    • 高度な送信オプション :

      • プロキシユーザー : Spark 接続にプロキシを使用できるようになっているユーザー名。

      • ドライバー Java オプションドライバーライブラリパスドライバークラスパス : ドライバーオプションを追加します。詳細については、「ランタイム環境(英語)」を参照してください。

      • アーカイブ : 各エグゼキュータの作業ディレクトリに抽出されるアーカイブのコンマ区切りのリスト。

      • 追加のデバッグ出力を出力する : --verbose オプションを指定して spark-submit を実行し、デバッグ情報を出力します。

  9. OK をクリックして構成を保存します。次に、作成した構成のリストから構成を選択し、Run をクリックします。

    Select a configuration
  10. 実行ツールウィンドウで実行結果を確認します。

関連ページ:

Amazon EMR

DataGrip を使用すると、Amazon EMR データ処理プラットフォームのクラスターとノードを監視できます。AWS EMR サーバーに接続するビッグデータツールウィンドウでクリックし、AWS EMR を選択します。開いたビッグデータツールダイアログで、接続パラメーターを指定します。名前: 他の接続と区別するための接続の名前。領域: クラスターを取得するリージョンを選択します。認証タイプでは、認証方法を選択できます。デフォルトの資格情報プロバイダーチェーン: デフォルトのプロバイダーチェーン...

プラグイン

プラグインは DataGrip のコア機能を拡張します。例: プラグインをインストールして、次の機能を取得します。バージョン管理システム、課題追跡システム、ビルド管理サーバー、その他のツールとの統合。さまざまな言語とフレームワークのコーディング支援サポート。ショートカットのヒント、ライブプレビュー、ファイルウォッチャーなど。次のビデオは、プラグインサブシステムの概要を示しています。プラグイン設定を開くを押して設定を開き、を選択します。マーケットプレースタブを使用して、JetBrains マーケッ...

Spark モニタリング

Spark プラグインを使用すると、Spark クラスターと送信されたジョブを IDE で直接監視できます。この章では:Spark サーバーへの接続を最初から確立する、Zeppelin ノートブックから Spark への接続を確立する、ジョブグラフの表示、監視データを除外する、Spark サーバーに接続するビッグデータツールウィンドウでクリックし、Spark を選択します。開いたビッグデータツールダイアログで、接続パラメーターを指定します。名前: 他の接続と区別するための接続の名前。URL: Spa...

カスタム Spark クラスター

Spark 実行構成を送信するでは、AWS EMR または Dataproc をリモートサーバーとして使用してアプリケーションを実行できます。これら 2 つのオプションに加えて、独自のカスタム Spark クラスターを構成することもできます。リモートサーバーに接続するための SSH 構成をセットアップし、オプションで Spark 履歴サーバーへの接続と SFTP 接続を構成します。カスタム Spark クラスターの作成ビッグデータツールウィンドウで、をクリックし、カスタム Spark クラスター...