Cloudera Data Science Workbenchクイックスタート

Aki Ariga
Cloudera Japan Official Blog
9 min readMay 8, 2017

--

原著者:Tristan Zajonc
原文:
Getting Started with Cloudera Data Science Workbench
訳:有賀康顕

先週、ClouderaはCloudera Data Science Workbench一般リリース(GA)をアナウンスしました。この記事では、Cloudera Data Science Workbenchの機能とアーキテクチャの概要を説明するとともに、既存のCDHクラスタに3ステップで接続するためのクイックスタートガイドを提供します。

Cloudera Data Science Workbenchの主目的は、企業向けのセルフサービス・データサイエンスを可能にすることです。データサイエンティストは、Cloudera Enterprise Data Hubの全てのパワーとセキュリティ機能を活用しながら、データサイエンスと機械学習のソリューションを短期間で構築、拡張、展開することができます。

Cloudera Data Science Workbenchのコア機能

Cloudera Data Science Workbenchを開発した当初から、私たちの目標は、データサイエンティスト、アナリストリーダー、そしてインフラ管理者の全ての人に気に入ってもらえるソリューションを提供することでした。 そのためには、データサイエンティストにとっての環境設定からの解放と真の柔軟性、アナリストリーダーにとってのマルチテナントとシームレスなコラボレーション、インフラ管理者にとっての容易な統合と高いセキュリティが必要となります。 非常に長い間、これらのゴールは互いに相容れないものでした。

Cloudera Data Science Workbench 1.0リリースでは、こうしたゴールを達成することができたと信じています。 Cloudera Data Science Workbenchは各グループに対し具体的に以下のようなメリットをもたらします。

Cloudera Data Science Workbenchの主な利点

これらの機能と利点は、Cloudera Data Science Workbenchの基盤となるアーキテクチャによって可能になりました。 これがどのように実現されたかを理解するために、もう少し深く説明してみましょう。

データサイエンスのためのセキュアでスケーラブルなマルチテナントゲートウェイ

Cloudera Data Science Workbenchは、CDHクラスタ上の1ノード、あるいは複数ノードの専用ゲートウェイホスト上で動作します。 Cloudera Managerによって、追加設定なしで、Cloudera Data Science WorkbenchがCDHクラスタに安全にアクセスするためのライブラリや設定を持つことが保証されます。 データサイエンティストは、ダウンロードやインストールなしで、WebブラウザからCloudera Data Science Workbenchに直接アクセスします。

既存のCDHクラスターにCloudera Data Science Workbenchが接続する

Cloudera Data Science Workbenchは、ユーザーがインフラ部門の介入なしに必要なすべてのツールとライブラリを提供できるように、Dockerコンテナを使用して独立したユーザーワークロードを実行します。プロジェクトごとに、ユーザーは異なるバージョンのライブラリとシステムパッケージでR、Python、およびScalaのワークロードを実行できます。 CPUとメモリも分離されており、マルチテナント設定で確実でスケーラブルな実行を保証します。 ユーザーワークロードを実行する各Dockerコンテナは、Apache Hadoop HDFS、Apache Spark 2、Apache Hive、Apache Impala (incubating)などのクラスタサービスへの安全なアクセスを持つ仮想化ゲートウェイを提供します。

Cloudera Data Science Workbenchは、単一の共有環境で共同作業するデータサイエンスチームをサポートするために、徹底的に構築されています。 各インストールは、1つのマスターゲートウェイノードから開始します。 ワーカーゲートウェイノードは、いつでも追加したり削除して、総容量を増やすことができます。 これにより、利用が拡大するにつれてエンドユーザーのキャパシティを容易に予測しながら追加することができます。

Cloudera Data Science Workbenchは、複数のノードにわたってコンテナをわかりやすくスケジューリングします。 このスケジューリングは、Cloudera Data Science Workbenchによって内部的に使用されるコンテナオーケストレーションシステムであるKubernetesを使用して行われます。 DockerもKubernetesもエンドユーザーは直接見ることなく、ユーザーはWebアプリケーションを通じてCloudera Data Science Workbenchと対話的に処理します。 Cloudera Data Science Workbenchは、ホストへの直接アクセスをエンドユーザから隔離することにより、セキュリティを維持しながらエンドユーザに柔軟性を提供します。

R, Python, Scalaを利用したSpark 2のサポート

Cloudera Data Science Workbenchは、スタンドアロンのRおよびPythonからHDFS、Hive、ImpalaなどのCDHサービスへのアクセスをサポートするだけでなく、最新かつ最高のSparkリリースであるSpark 2.1へのインタラクティブおよびバッチアクセスをネイティブサポートしています。 Cloudera Data Science Workbenchは、Jupyterのカーネルを使用してインタラクティブな実行をサポートします。 Sparkアプリケーションをサブミットし、結果を待ち、エラーや予期しない結果を発見したときにアプリケーションを再度サブミットする必要はありません。 データサイエンティストは、探索から本番環境への導入までをインタラクティブなワークベンチ内で直接作業できます。

Cloudera Data Science Workbenchは、既存のCDHクラスタの全てのパワーを活用するために、YARNのクライアントモードを通してSparkを利用します。SparkドライバはCloudera Data Science Workbenchプロジェクトのコンテナ内で実行され、SparkエグゼキュータはCDHクラスタリソースにフルアクセスすることができます。 Sparkの動的アロケーションを有効にすると、Sparkは必要に応じてリソースを要求するだけで、クラスタリソースをさまざまなワークロードで細かく分散して動的に共有できます。 ドライバをコンテナ内で実行することで、データサイエンティストはパッケージを簡単にインストールし、全てカスタマイズ可能な環境でインタラクティブに作業することができ、YARNによるSparkの分散実行と堅牢なマルチテナント性をフル活用できます。

Spark 2はR, Python, ScalaからのYARNを利用した接続をサポートしており、長期稼働する対話セッションやバッチジョブのためのリソースの動的割当を行うことが出来る

3ステップでの簡単なインストール

Cloudera Data Science Workbenchは、データサイエンティスト、アナリストリーダー、インフラ管理者が愛用できるセルフサービスのデータサイエンスの体験を提供します。 もちろん、これらの機能を既存のCDHクラスタに導入することも簡単です。

ダウンロードページにアクセスしてバージョン1.0の公式RPMをダウンロードしてから、いくつかの簡単なインストール手順に従ってください。必要な作業は大まかには以下のとおりです。

  1. Cloudera Managerからゲートウェイホストを設定する
  2. マスターゲートウェイホストにCloudera Data Science Workbenchをインストールする
  3. 必要に応じて、ワーカーホストを追加する

これにより、R、Python、およびScalaを使用して、CDHクラスタに安全に接続し、プロジェクトや結果をコラボレーション・共有し、単一の安全なマルチテナント環境で探査から本番適用までのデータサイエンスを加速することができます。

Cloudera Data Science Workbenchの機能の詳細については、製品概要をお読みいただくか、Clouderaのプロダクト関連のディレクター Matt Brandweinのウェビナーとデモをご覧ください(訳注:日本語のウェビナーはこちら)。 質問がある場合は、Cloudera Communityポータルのディスカッションに参加してください。

--

--

ML Engineer at Arm Treasure Data. Previously Cloudera. Love machine learning, data analysis, Ruby and Python.