Spark モニタリング
Spark(英語) プラグインを使用すると、Spark(英語) クラスターと送信されたジョブを IDE で直接監視できます。
この章では:
Spark サーバーに接続する
ビッグデータツールウィンドウで
をクリックし、Spark を選択します。
開いたビッグデータツールダイアログで、接続パラメーターを指定します。
名前 : 他の接続と区別するための接続の名前。
URL : Spark 履歴サーバーの URL (通常はポート 18080 で実行されます)。
オプションで、次を設定できます。
プロジェクトごと: これらの接続設定を現在のプロジェクトでのみ有効にする場合に選択します。この接続を他のプロジェクトで表示する場合は、選択を解除します。
接続を使用可能にする : この接続を無効にする場合は選択を解除します。デフォルトでは、新しく作成された接続は有効になっています。
トンネリングを有効にする : リモートホストへの SSH トンネルを作成します。ターゲットサーバーがプライベートネットワーク内にあるが、ネットワーク内のホストへの SSH 接続が利用可能な場合に役立ちます。
チェックボックスを選択し、SSH 接続の構成を指定します(... をクリックして新しい SSH 構成を作成します)。
HTTP 基本認証を使用可能にする : 指定されたユーザー名とパスワードを使用した HTTP 認証との接続。
プロキシ : IDE プロキシ設定を使用するか、カスタムプロキシ設定を指定するかを選択します。
設定を入力したら、接続のテストをクリックして、すべての構成パラメーターが正しいことを確認します。次に OK をクリックします。
実行中のジョブを使用して Zeppelin から接続を確立する
Zeppelin(英語) プラグインをお持ちの場合は、Zeppelin ノートブックから Spark ジョブを開くことで、Spark サーバーにすぐに接続できます。
Spark を含む Zeppelin ノートブックで、段落を実行します。
「オープンジョブ」リンクをクリックします。開いた通知で、 リンクをクリックします。
ジョブが実行されている Spark 履歴サーバーにすでに接続している場合は、接続の選択をクリックしてリストから選択します。
開いたビッグデータツールダイアログで、接続設定を確認し、接続のテストをクリックします。接続が正常に確立された場合は、「OK」をクリックして構成を完了します。
Spark サーバーへの接続を確立すると、Spark モニタリングツールウィンドウが表示されます。
![Spark モニタリング: ジョブ Spark monitoring: jobs](https://resources.jetbrains.com/help/img/idea/2024.1/bdt_spark_jobs.png)
いつでも、次のいずれかの方法で接続設定を開くことができます。
Ctrl+Alt+S の設定のツール | ビッグデータツールの設定ページに移動します。
ビッグデータツールツールウィンドウ ( ) を開き、Spark 接続を選択して、
をクリックします。
Spark モニタリングツールウィンドウの任意のタブで
をクリックします。
Spark モニタリングツールウィンドウでアプリケーションを選択すると、次のタブを使用してデータを監視できます。
情報 : アプリ ID や試行 ID など、送信されたアプリケーションに関する高レベルの情報。
ジョブ : アプリケーションジョブの概要。ジョブをクリックすると、詳細が表示されます。「可視化」タブを使用して、ジョブ DAG を表示します。
ステージ : 各ステージの詳細。
環境 : 環境変数と構成変数の値。
執行者 : タスクを実行し、タスク全体のメモリまたはディスクストレージにデータを保持するアプリケーション用に起動されるプロセス。「ログ」タブを使用して、executor stdout および stderr ログを表示します。
ストレージ : 永続化された RDD と DataFrame。
SQL : SQL クエリの実行に関する詳細 (アプリケーションで使用される場合)。
また、1 つのエグゼキューターに送信された作業単位タスクの情報をプレビューすることもできます。
データの種類の詳細については、「Spark のドキュメント(英語)」を参照してください。
DAG グラフからソースコードに移動する
DAG (有向非巡回グラフ) は、Spark ジョブの論理実行プランを表します。Spark UI と同様に、Spark ジョブの DAG を視覚化できます。DataGrip を使用すると、DAG からソースファイル内の対応するコード部分にすばやく移動することもできます。
Spark モニタリングツールウィンドウを開きます: 。
アプリケーションを選択し、ジョブタブを開きます。
可視化列で、表示をクリックします。
これにより、新しいエディタータブでジョブの視覚化が開きます。
グラフ内で任意の操作をダブルクリックします。
ソースコードファイル、対応する操作にリダイレクトされます。
![Spark DAG](https://resources.jetbrains.com/help/img/idea/2024.1/spark_dag.png)
監視データを除外する
Spark モニタリングツールウィンドウで、次のフィルターを使用してアプリケーションをフィルターします。
フィルター : アプリケーション名または ID を入力します。
制限 : 表示されるアプリケーションの制限を変更するか、すべてを選択してすべてのアプリケーションを表示します。
開始済み: アプリケーションを開始時間でフィルタリングするか、任意を選択します。
完了: 完了時間でアプリケーションをフィルタリングするか、任意を選択します。
: 実行中または完了したアプリケーションのみを表示します。
「ジョブ」、「ステージ」、「SQL」タブでは、
を使用してステータス別にデータをフィルターすることもできます。
いつでも、Spark モニタリングツールウィンドウで をクリックして、監視データを手動でリフレッシュできます。または、リフレッシュボタンの横にあるリストを使用して、特定の時間間隔内の自動リフレッシュを構成できます。
関連ページ:
![](https://resources.jetbrains.com/help/img/idea/2024.1/bdt-aws-emr-connections.png)
Amazon EMR
DataGrip を使用すると、Amazon EMR データ処理プラットフォームのクラスターとノードを監視できます。AWS EMR サーバーに接続するビッグデータツールウィンドウでクリックし、AWS EMR を選択します。開いたビッグデータツールダイアログで、接続パラメーターを指定します。名前: 他の接続と区別するための接続の名前。領域: クラスターを取得するリージョンを選択します。認証タイプでは、認証方法を選択できます。デフォルトの資格情報プロバイダーチェーン: デフォルトのプロバイダーチェーン...
![](https://resources.jetbrains.com/help/img/idea/2024.1/db_proxy_server_settings.png)
HTTP プロキシ
DataGrip がインターネットにアクセスするときにトラフィックを通過させたい場合は、HTTP または SOCKS プロキシサーバーの設定を指定します。HTTP プロキシは、HTTP 接続と HTTPS 接続の両方で機能します。これらの設定は、JDBC ドライバーのダウンロード、プラグインのダウンロード、ライセンスの有効性の確認、インスタンス間での IDE 設定の同期、および IDE 自体のその他のタスクを実行するために DataGrip が確立する接続に影響します。プロキシなしプロキシなしで直...
![](https://pleiades.io/icons/datagrip.png)
Spark
Spark プラグインを使用すると、IDE で直接 Spark ジョブを作成、送信、監視できます。プラグインの機能には次のものが含まれます。Spark アプリケーションを構築してクラスターにアップロードするための Spark 送信実行構成。送信されたジョブの監視、DAG 視覚エフェクトの表示などを行うための Spark モニタリングツールウィンドウ。これには、Spark 実行構成の送信および EMR ステップから送信されたジョブが含まれます。Zeppelin プラグインがインストールされている場合は、Zep...
![](https://resources.jetbrains.com/help/img/idea/2024.1/spark_run_configuration.png)
Spark 実行構成を送信する
Spark プラグインを使用すると、Spark クラスター上でアプリケーションを実行できます。DataGrip は、Spark の bin ディレクトリで spark-submit スクリプトを実行するための実行 / デバッグ構成を提供します。アプリケーションはローカルで実行することも、SSH 構成を使用して実行することもできます。Spark プラグインをインストールするこの機能は、インストールして有効にする必要がある Spark プラグインに依存しています。を押して IDE 設定を開き、を選択します。マ...