Cloudera Data Science Workbench:企業向けセルフサービスデータサイエンス

Aki Ariga
Cloudera Japan Official Blog
8 min readMar 17, 2017

--

原文:Cloudera Data Science Workbench: Self-Service Data Science for the Enterprise
原著者:Matt Brandwein, Tristan Zajonc
翻訳:有賀

私たちは機械学習の黄金時代に突入しています。それはすべてデータに関するものです。 データの量が増え、計算とストレージのコストが低下し続けることで、世界最大の問題を解決する機会はこれまでになく増えました。 当社のお客様は、すでに高度な機械学習を使用して自動運転車を構築し、病院での新生児のケアを改善し、金融犯罪の防止や、サイバー攻撃の脅威と戦っています。 しかしこれは始まりに過ぎません。

Clouderaでは、お客様がデータを活用することで実現できる限界を広げるためのご支援を行い続けています。 本日、エンタープライズにおいても高速で使いやすく、セキュアなセルフサービスのデータサイエンスを可能にするCloudera Data Science Workbenchを紹介できることをとてもうれしく思います。最も強力なテクノロジを使用して、機械学習や高度な分析ソリューションを構築し、スケールさせ、デプロイすることで、チームの能力を大幅に向上させます。

この記事では、現在プライベートベータ版として提供しているData Science Workbenchを開発した理由を説明し、機能の概要を紹介します。

データサイエンティスト:1000の課題、1000のツール

ここ数年、企業はあらゆる種類のビジネス課題に対してビッグデータソリューションを採用してきました。しかし同時に、データサイエンティストは、特に大規模でセキュアな環境で、新しい分析プロジェクトを短期間で構築し、テストするのに苦労しています。

といっても、これは驚くべきことではありません。ほとんどの分析課題は画一的なルーチンワークではありません。企業内のデータは複雑です。データサイエンティストが直面する課題はいつも、高度なモデルとその手法を求めています。 持続的に優位性を確保したり、データを活用した変革によるインパクトを与えるためには、実験、イノベーション、そしてハードワークが必要です。

しかし、そうした苦労は課題と同じくらい大変だとしても、課題以上に大変になることはありません。にもかかわらず、技術的および組織的制約により、データサイエンティストがイノベーションを起こす能力が制限されることが多すぎます。なぜでしょうか?

まず、データサイエンティストが本当は誰であるかを理解する必要があります。 典型的なビッグデータ業界のマーケティングによれば、データサイエンティストは、統計学、機械学習、ソフトウェア・エンジニアリングの専門家であり、特定のビジネス・ドメインの専門知識を持っています。これらをすべて持っている人はほとんどいません。

しかし、多くの組織がすでに統計学者、定量的研究者、アクチュアリー、アナリストを採用していることが判明しています。こうした現実世界のデータサイエンティストは、ソフトウェアエンジニアであるとは限らないものの、数学やビジネス分野には非常に深い知識を持っています。彼らはApache HadoopやApache SparkをJavaやScalaでプログラミングするよりも、デスクトップ上の小規模から中規模のデータを扱い、Python、Rのようなオープンなデータサイエンスツールやその他の膨大なライブラリやフレームワークを、データクレンジング、分析、および予測モデリングに使っています。

これには次のようないくつかの課題があります。

  1. あらゆるチーム、ユーザー、プロジェクトは異なる言語、ライブラリ、フレームワーク、アルゴリズムを必要とします(PythonとR、Python 2系と3系など)。その一方で、コラボレーションとコンプライアンスは再現可能性に大きく依存しています。そして、あらゆる組み合わせに対して再現性を確保するのは困難です。
  2. 単一のマシンで動作するものは、クラスタ全体でスケールしない場合があります。ほとんどのデータサイエンティストは、通常、サンプリングをし、データを抽出して作業をします。
  3. セキュアなクラスタは、データサイエンティストにとっては非常に厄介です。 多くの統計の専門家はKerberos認証に精通していません。

その結果、技術的および組織的な理由によって、データサイエンティストは束縛されていると言えるでしょう。データサイエンティストは、柔軟性とシンプルさを、革新的かつ生産的な仕事のために求めますが、一方でスケーラビリティとセキュリティをビジネスインパクトのために必要とします。

IT:採用 vs コンプライアンス

IT部門は困り果てるでしょう。データサイエンティストは、組織内で最も戦略的なユーザーです。彼らの洞察はビジネスを推進します。実際、ビッグデータ基盤を構築する多くの動機は、高度な分析のユースケースをサポートすることです。ビジネスはデータサイエンティストが提供する結果に依存し得るため、IT部門は生産性を向上させるという大きなプレッシャーを受けています。

IT部門は、セキュリティやガバナンスなどの業務命令に準拠する責任があります。これは、すべてのユーザーがSQLなどの共通のインターフェースを介して環境にアクセスしている場合ですら困難です。すべてのチーム、ユーザー、プロジェクトが異なるオープンソースツールセットを使用すると、はるかに難しくなります。セキュアクラスタに対して非常に多くの環境の組み合わせを管理することは、不可能ではないにしてもできることなら避けたい作業です。エンタープライズレベルのデータ・セキュリティとデータサイエンスの利点のバランスをとらなければならないIT部門は、しばしばデータ保護に重きを置いて、データサイエンティストを排除しなければならないことすらあります。

その結果、データサイエンスチームは企業の最も戦略的な資産から切り離されます。デスクトップを使い続けるか、限られたデータセットであっても、好みのツールを使用できる「影のIT部門」としてのクラウドインフラストラクチャを採用しています。このユーザビリティギャップは、データサイエンスチームのイノベーションと正確さを制限し、断片化されたデータサイロによりIT部門へのコストとリスクを増大させます。

Cloudera Data Science Workbenchの紹介

1年前、Clouderaプラットフォーム上でのデータサイエンティストの機械学習と高度な分析を劇的に改善するために、ClouderaはスタートアップのSense.ioを買収しました。この買収とそれに続く開発の成果こそが、今日のCloudera Data Science Workbenchの発表となります。

Cloudera Data Science Workbenchは、データサイエンティストがR、Python、Scalaなどの好きな言語やオープンソースライブラリを安全な環境で直接使用できるWebアプリケーションです。データの探索から本番環境への適用まで分析プロジェクトを加速します。

コンテナテクノロジを使用して構築されたCloudera Data Science Workbenchは、データサイエンスチームにプロジェクト間の分離と、再現性の向上、特にノートブックの共有による容易なコラボレーションを実現します。Cloudera Data Science Workbenchは、クラスタ内のデータに対する完全な認証とアクセス制御をサポートし、Kerberosとの統合もとても容易です。既存のクラスタに追加すると、それだけで動作します。

Cloudera Data Science Workbenchを使用すると、データサイエンティストは次のことができます。

  • WebブラウザからR、Python、またはScalaをクラスタ上のデータに対して使用します。デスクトップへのインストールは不要です。
  • 独立したプロジェクト環境内に任意のライブラリまたはフレームワークをインストールします。
  • SparkとImpalaを使用してセキュアクラスタ内のデータに直接アクセス可能にします。
  • 再現性が高く協力的な研究のためにチームと洞察を共有できます。
  • 組み込みのジョブスケジューリングを使用してデータパイプラインを自動化し、監視します。

一方、IT部門のプロフェッショナルは次のことができます。

  • データサイエンスチームに、彼らが望む方法を、好きなときに使える自由を与えます。
  • 特にKerberosなど、完全なセキュリティのプラットフォームをすぐに使用できます。
  • オンプレミスでもクラウドでも、データがある場所で実行できます。

私たちはCloudera Data Science Workbenchを発表することを光栄に思います。また今後数週間でより多くの情報を共有することを楽しみにしています。

--

--

ML Engineer at Arm Treasure Data. Previously Cloudera. Love machine learning, data analysis, Ruby and Python.