Cloudera 5.7がビジネスワークロードをパワーアップ

Sho Shimauchi
Cloudera Japan Official Blog
5 min readApr 25, 2016

--

投稿:Alex Gutow:2016年4月7日
カテゴリー:製品

Apache Hadoopの主要な特長は、プラットフォームとして互いにデータを共有する複数のさまざまなフレームワークをサポートすることで、開発者からビジネスアナリスト、データサイエンティストに至るまで、社内のあらゆるユーザーが自分の仕事やスキルに合ったツールを活用できるようになる点です。Cloudera Enterpriseでは、優れたパフォーマンスと最高のテクノロジーを組み合わせこのようなユーザーのワークロードに対して提供し、ユースケースの拡張に対しても容易な管理性能を発揮します。また、コンプライアンス対応のセキュリティ機能も最初から実装されています。最新のCloudera Enterprise 5.7のリリースでは、これら3つの重要な領域での提供機能をより進化させ、ビジネス全体でプラットフォームの機能をフルに活用できるようになっています。

あらゆるワークロードで高速性能を発揮

Clouderaは、本リリースにおいてHive-on-Sparkのサポートを追加しました。これまで使い慣れたSQLライクな言語を使用する場合、あるいは企業全体での大規模な適用など、ETLの開発やバッチ処理については、Apache Hiveがデファクトツールとして継続使用されると思われます。これまでHiveでは、処理エンジンとしてMapReduceを使用してきました。しかし、Apache Sparkは、開発の容易性や、より高い柔軟性や高速処理性能など、MapReduceに比べ非常に多くのメリットを提供することができます。これが、MapReduceに替わりApache HiveをHadoopの標準データ処理エンジンの後継に選択した理由です。「One Platform Initiative」はこの移行を完遂するためのロードマップであり、SparkとHadoopの完全な統合にフォーカスし、エンタープライズが求める要件にSparkを適合させようとする取り組みです。今回のリリースは、この目標達成に向けた重要な節目と言えます。

データエンジニアは、Hive-on-Sparkを使用することで、既存のあるいはこれから作成するHiveのワークロードを、シームレスにSparkに移行できるだけでなく、平均3倍程度のパフォーマンス向上という高速な処理性能を手に入れることができます。業務の中断をさらに最小化するため、Clouderaでは、BMC、ClearStory Data、Elastic、NGDATA、Solix、Trillium Software、Zementisをはじめ、多数のパートナーと協業しながら、各社の優れたデータ統合やデータ作成ツールを、カスタマーが引き続き使用し、同時に最新テクノロジーのメリットを活かせるようソリューションの検証を行なっています。

しかし、多くのエンタープライズにとってデータ処理は最終目的ではありません。処理したデータは、他の部門やユーザーにビジネスインテリジェンスとして提供されたり、新たな知見を得るためにさらに分析が加えられたりします。もちろんClouderaとHadoopなら、同一プラットフォーム上でこれが可能です。Apache Impala(インキュベーション中)は、Hadoopにおける最速の分析SQLエンジンとして、ビジネス分析のための高いコンカレンシー(同時並行性)を持つデータを企業全体に提供することができます。Cloudera 5.7では、さらにImpalaのパフォーマンスの優位性を高め、数百のユーザーに対しても、以前のバージョンに比べ平均2倍のパフォーマンス向上を実現しています。

マルチテナント化を容易に

プラットフォームが、より多くのユーザー、ワークロードやアプリケーションをサポートするようになると、各ジョブに必要なリソースを適切に配分しSLAを遵守できるようにすることが非常に重要となります。システム管理者(アドミニストレータ)は、Cloudera Managerを使用することで、ワークロードの優先順位、稼働日や稼働時間、その他のビジネスニーズに応じて、ユーザグループに割り当てるリソースを動的に管理することができます。さらに、Cloudera 5.7でユーザーやテナント、アプリケーションなどのソースの使用率や効率を履歴として確認できるようになりました。この新しい Cluster Utilization Reporting(クラスタ使用率レポート)機能によって、実際の使用状況を確認しながら、効率的な運用とグループやワークロードタイプ間の適切なリソース配分を行うことができます。また、この自動レポーティング機能によって、SLAの遵守を支援し、ジョブやクエリのパフォーマンス問題にも容易な対処が可能となり、また、いっそう優れたキャパシティプラニングが行なえるようになります。以下のビデオでは、このレポーティング機能を使って、YARNとImpalaのワークロードを調査する様子をご覧いただけます。

Cloudera Enterprise 5.7は、今すぐcloudera.com/downloadsからダウンロードすることができます。Cloudera Enterprise 5.7の新機能詳細については、”Cloudera 5.7 Webinar Series” にご登録いただく、また、Developer Blogも参照いただくようお願いします。

--

--