DataGrip 2024.1 ヘルプ

Amazon EMR

DataGrip を使用すると、Amazon EMR(英語) データ処理プラットフォームのクラスターとノードを監視できます。

AWS EMR サーバーに接続する

  1. ビッグデータツールウィンドウで Add a connection をクリックし、AWS EMR を選択します。

  2. 開いたビッグデータツールダイアログで、接続パラメーターを指定します。

    Configure AWS EMR connection
    • 名前 : 他の接続と区別するための接続の名前。

    • 領域 : クラスターを取得するリージョンを選択します。

    • 認証タイプでは、認証方法を選択できます。

      • デフォルトの資格情報プロバイダーチェーン : デフォルトのプロバイダーチェーンの資格情報を使用します。チェーンの詳細については、「デフォルトの資格情報プロバイダーチェーンの使用(英語)」を参照してください。

      • 資格情報ファイルからのプロファイル : 認証情報ファイルからプロファイルを選択します。

      • 明示的なアクセスキーと秘密鍵 : 資格情報を手動で入力します。

    デフォルトの資格情報プロバイダーチェーンまたは資格情報ファイルからのプロファイルオプションを選択した状態で、資格情報を開くをクリックして、資格情報ファイルが格納されているディレクトリを見つけることができます。デフォルトの場所を使用する場合、通常は Linux の ~/.aws/credentials または macOS、または Windows の C:\Users\<USERNAME>\.aws\credentials です。または、カスタム構成を使用するを選択した場合は、カスタムの場所にすることができます。

    オプションで、次を設定できます。

    • プロジェクトごと: これらの接続設定を現在のプロジェクトでのみ有効にする場合に選択します。この接続を他のプロジェクトで表示する場合は、選択を解除します。

    • 接続を使用可能にする : この接続を無効にする場合は選択を解除します。デフォルトでは、新しく作成された接続は有効になっています。

    • HTTP プロキシ : IDE プロキシ設定を使用するか、カスタムプロキシ設定を指定するかを選択します。

    • SSH キー設定を開きますリンクをクリックして、秘密鍵ファイルで認証された SSH 接続を作成します。EMRSSH キーストアダイアログで Amazon EC2 キーペア秘密キー(英語)を指定する必要があります。

  3. 設定を入力したら、接続のテストをクリックして、すべての構成パラメーターが正しいことを確認します。次に OK をクリックします。

いつでも、次のいずれかの方法で接続設定を開くことができます。

  • Ctrl+Alt+S の設定のツール | ビッグデータツールの設定ページに移動します。

  • AWS EMR ツールウィンドウのツールバーで settings をクリックします。

サーバーへの接続を確立すると、AWS EMR ツールウィンドウが表示されます。ここでクラスターの名前を入力し、クラスターのステータスまたは終了時刻を選択することで、クラスターをフィルターできます。

Filter clusters

AWS EMR ツールウィンドウでクラスターを選択すると、次のタブを使用してクラスターを監視できます。

Cluster info

このタブには、選択したクラスターに関する詳細が表示されます。フィルターフィールドに名前と ID を入力すると、クラスターをフィルターできます。

詳細情報を入手する

  • Web インターフェースでクラスターの詳細をプレビューできます。Browse the cluster details またはサブネットを開くマスターセキュリティグループ、またはコアおよびタスクセキュリティグループをクリックします。

  • Open an SFTP connection をクリックしてターゲットサーバーへの SFTP 接続を確立し、ファイルシステム内の構成ファイルへのパスを指定します。

  • 選択したクラスターの EMR ログをプレビューできます。Open EMR logs をクリックして、専用のリモートファイルシステムビューアービッグデータツールツールウィンドウでログを開きます。

  • 選択したクラスター構成の JSON 表現については、「 View JSON representation (JSON 形式で表示 )」をクリックします。

Cluster steps

このタブには、アプリケーションステップ、その ID、実行ステータスが表示されます。「フィルター」フィールドにステップを入力すると、名前と ID でステップをフィルタリングできます。

ステップを選択すると、メインクラス名、引数、ログフォルダーへのリンクなどの詳細がツールウィンドウの右側でプレビューされます。

ステップを管理する

  • Browse the step details をクリックして、Web インターフェースでアプリケーションステップをプレビューします。

  • さまざまな型のステップをさらに追加できます。More steps をクリックして、追加するステップ型を選択します。次に、そのパラメーターを指定します。

    Add an application to Steps
  • Clone a step をクリックして、選択したステップを複製します。

  • 選択したステップの JSON 表現については、View JSON representation をクリックします。

Cluster instances

このタブには、選択したクラスターのインスタンスに関する詳細が表示されます。検索フィールドに任意のインスタンス名を入力し始めると、それが選択されます。

インスタンスを表示

  • Browse the cluster details をクリックすると、Web インターフェースでインスタンスの詳細をプレビューできます。Manage visibility of instance parameters をクリックして、インスタンスの特定のパラメーターを表示または非表示にすることもできます。

  • Open an SFTP connection をクリックしてターゲットサーバーへの SFTP 接続を確立し、ファイルシステム内の構成ファイルへのパスを指定します。

  • 選択したクラスター構成の JSON 表現については、View JSON representation をクリックしてください。

Cluster applications

このタブには、選択したクラスターで実行されているアプリケーションが表示されます。Browse the application details をクリックして、デフォルトの Web ブラウザーでクラスターの詳細をプレビューします。

Amazon EMR アプリケーションを開く

DataGrip を使用すると、Amazon EMR クラスターにインストールされているアプリケーションを開くことができます。AWS EMR ツールウィンドウからデフォルトのブラウザーで直接開くことができます。さらに、ツールがビッグデータツールプラグイン (Hadoop、HDFS、Hive、Spark、Zeppelin など) のいずれかでサポートされている場合は、DataGrip でそのツールへの接続を作成できます。この場合、専用のツールウィンドウが IDE で開きます。例: Zeppelin サーバーに接続すると、DataGrip エディターで Zeppelin ノートを開いて編集できます。アプリケーションへの接続は SSH トンネリングに基づいているため、クラスターで構成された SSH キー(英語)を提供する必要があります。

  1. AWS EMR ツールウィンドウで、Amazon EMR クラスターを選択します。

  2. アプリケーションタブを開き、名前列で、アプリケーションへのリンクをクリックします。

  3. ビッグデータツールプラグインでサポートされているアプリケーションの場合、それを開く場所を選択します。

    • ブラウザーで開くをクリックして、デフォルトのブラウザーで開きます。

    • 接続の作成を使用して、IDE 内でアプリケーションへの接続を作成します。新しい接続がビッグデータツールツールウィンドウに表示されます。

  4. アプリケーションに初めて接続する場合は、接続を作成するように求められます。作成をクリックし、開いたダイアログで SSH キーファイル(mykey.pem など)を選択します。

    SSH キーが読み込まれると、アプリケーションタブでその名前をクリックするだけで、このクラスターのアプリケーションに接続できます。

  5. 開いた接続の作成ウィンドウで、次のいずれかを選択します。

    • デフォルト設定を使用してすぐに接続を開始する場合は、デフォルトを使用

    • 接続する前にいくつかの設定を変更する場合はカスタマイズします。たとえば、Zeppelin ユーザー名とパスワードを入力します。

関連ページ:

Spark

Spark プラグインを使用すると、IDE で直接 Spark ジョブを作成、送信、監視できます。プラグインの機能には次のものが含まれます。Spark アプリケーションを構築してクラスターにアップロードするための Spark 送信実行構成。送信されたジョブの監視、DAG 視覚エフェクトの表示などを行うための Spark モニタリングツールウィンドウ。これには、Spark 実行構成の送信および EMR ステップから送信されたジョブが含まれます。Zeppelin プラグインがインストールされている場合は、Zep...

Flink モニタリング

Flink プラグインを使用すると、Apache Flink ジョブを監視して送信できます。典型的なワークフロー:Flink サーバーへの接続を確立する、Apache Flink ダッシュボードを反映した専用ツールウィンドウを使用して Flink ジョブを監視する、新しいジョブを Flink クラスターに送信する、Flink サーバーに接続するビッグデータツールウィンドウでクリックし、Flink を選択します。開いたビッグデータツールダイアログで、接続パラメーターを指定します。名前: 他の接続と区別...

HTTP プロキシ

DataGrip がインターネットにアクセスするときにトラフィックを通過させたい場合は、HTTP または SOCKS プロキシサーバーの設定を指定します。HTTP プロキシは、HTTP 接続と HTTPS 接続の両方で機能します。これらの設定は、JDBC ドライバーのダウンロード、プラグインのダウンロード、ライセンスの有効性の確認、インスタンス間での IDE 設定の同期、および IDE 自体のその他のタスクを実行するために DataGrip が確立する接続に影響します。プロキシなしプロキシなしで直...

データファイルを操作する

リモートストレージへの接続を確立したら、データファイルを操作できるようになります。リモートファイルシステムプラグインを使用すると、バケットの管理、基本的なファイル操作の実行、ファイルの迅速な検索とそのファイルへの移動などを行うことができます。大きな構造化ファイル (Parquet、ORC、Avro、CSV) を表形式でプレビューすることもできます。この機能はビッグデータファイルビューアーによって提供され、リモートファイルシステムプラグインとともに自動的にインストールされます。サーバーディレクトリ...

Hadoop YARN

DataGrip を使用すると、Hadoop YARN メトリクスを監視できます。典型的なワークフロー:Hadoop サーバーへの接続を確立する、プレビューレイアウトを調整する、監視するパラメーターを除外する、Hadoop サーバーに接続するビッグデータツールウィンドウでクリックし、Hadoop YARN を選択します。開いたビッグデータツールダイアログで、接続パラメーターを指定します。名前: 他の接続と区別するための接続の名前。URL: Hadoop サーバーの URL。オプションで、次を設定で...