EMR

1/4ページ

AWS EMRにspark-jobserverを構築してREST経由でJob実行させる

Sparkを利用して、ジョブをパシパシ叩きたかったのですが、どうやってジョブ実行をしようかな、と悩むことになりました。 クラウド依存になりたくなかったので、できればKinesisストリームは使いたくないな。。と思いつつも下記のように調べてみました。 利用可否 Streamingか単発ジョブか アドホックな引数設定の可否 懸念 KinesisとSpark Streaming 可 Streaming やや難しい。 GCPとかMS使いたくなっ […]

EMR上でPython3系でpysparkする

概要 機械学習・データサイエンスといえばpython(numpy/iPython/scikit-learn)なのでpythonで書いていきたい。 しかし、仕事柄大規模なデータを扱うことになるので、分散できるsparkのAPIで取り扱いたい。 ということで(EMR)クラスタ上でpysparkを動かしてみます。 今からpython学ぶなら3系だろうということで3系(Anaconda3-4.0)で動かします。 不安だったので確認したけど、sp […]

Spark + IPython環境をAmazon EMR上で構築し、簡単なData解析を動かして見る (第2回:KPI算出編)

はじめに 第1回目で立ち上げたSpark ClusterにAccess Logを喰わせて、色々処理を廻してみる部分をチラシの裏しておきます。 (第1回)Amazon EMR上でのSpark Clusterの起動/設定方法 Spark, IPythonの設定方法 Spot instanceについて (第2回)Sparkを使って簡単なAccess Log解析 (★今回はココ) Access LogをS3から読み込んで、ETLする Acces […]

EMRのSparkでレコメンドを実装する

はじめに エムスリーAdvent Calendar 2016 最終日はデータ活用の王道、協調フィルタリングによるレコメンドをAmazon EMR上のSparkで実装します。 O’REILLYのSparkによる実践データ解析の第3章を元ネタに音楽の再生時間のデータを元にしたアーティストのレコメンドを実装してみます。 協調フィルタリングって何?という方は、ECサイトの「この商品を買った人はこんな商品も買っています」というのをイメ […]

Spark + IPython環境をAmazon EMR上で構築し、簡単なData解析を動かして見る (第1回:環境構築編)

はじめに 2015/6にAmazon EMRでSparkが標準サポートされました。これにより、EMRでSpark Clusterを起動すれば、ものの10分ぐらいでSpark + IPythonの環境を構築できるようになりました。 が、AWS ConsoleのEMRの設定UIが大きく変わったり、IPythonがJupyterになり一部設定方法が変わったり、それらの変化に各種Documentが追従していなかったりと、色々ハマッたので、設定方 […]

Spark + IPython環境をAmazon EMR上で構築し、簡単なData解析を動かして見る (第3回:機械学習編)

はじめに 第2回目でSpark ClusterにAccess Logを喰わせてKPIの算出(DAUやDaily Unique User)を行いましたが、今回は同じAccess LogをSpark MLLib(Sparkの機械学習のLibrary)で、Clustering(K-Means)とPCA(主成分分析)をする方法をチラシの裏しておきます。 (第1回)Amazon EMR上でのSpark Clusterの起動/設定方法 Spark, […]

Apache Sparkによる大規模データの分散処理による機械学習(回帰分析) by Amazon EMR

EMRでApache Sparkを使用するに当たって、必要なデータを処理するためのコードと入力データを用意するだけで、面倒な環境構築を行わず、わずかばかりの設定を加えるだけですぐに使用することができます。 ここでは、最初にScalaによるEMR上でのSpark処理、次に他のサービスのトリガーをきっかけに動くJavaによるLambdaでEMRを呼び出す手順を注意点も含めて詳細なメモを書きます。 Scalaによる回帰分析を行う実行ファイルの […]

AWS SDK for Javaで、Scala 2.11ビルドのSparkアプリを実行するStepを追加する

現時点(2016/05/06)だと、Spark on EMRに入ってるSpark assemblyはScala 2.10でビルドされているため、Scala 2.11で書いたアプリをEMRで実行する際はひと工夫必要です。 こちらの記事にて、masterノードにsshで入ってspark-submitする方法が紹介されていますが、ここではAWS SDK for Javaでstepを追加する方法をメモしときます。 EMR上でScala2.11ビ […]

大規模データについて第5回~EMR開発_運用編~

はじめに 今回は 「EMR開発/運用編」になります。 EMRバッチを継続的に安定運用するためのコツについてまとめました。 EMR編の最後になります。 EMR運用のコツは、特性である 「必要なときに必要なだけ使う」 を生かすことだと思います。 これを徹底することで我々のEMR費用は当初の 約半額程度まで、持っていくことができました! EMRインスタンス起動について 先ず最初に、以下が我々のEMR起動オプションになります。 export E […]

1 4