Spark

1/21ページ

SparkInternalsで知る、Sparkの内部構造概要(cache and checkpoint)

はじめに こんにちは。 前回に引き続き、SparkInternalsを訳していきます。 前回と同じく以後は下記の判例となります。 SparkInternals訳文 コメント SparkInternals cache and checkpoint cache(またはpersist)はHadoop MapReduceには存在しない、Spark固有の重要な要素となる。この機能によって、SparkはDataの再利用が可能になり、インタラクティブ […]

Sparkling Water (H2O + Spark)で、Deep Learningを試す (ローカル環境 – Windows編)

H2Oが出しているApache Sparkの拡張、Sparkling Water。 残念ながら、Spark組み込みの機械学習ライブラリMLlibには、Deep Learningは実装されていないわけですが、ちょうどそれを補完するように、Sparkiling Waterの方には実装がありますね。 Sparkling Water – 0xdata h2oai/sparkling-water – github で、Ex […]

Spark StreamingをAmazon EC2で使ってみた

この記事は ドワンゴ Advent Calendar 2014 の23日目の記事です。 昨日は hiroki_kanaさん でした。 最近、Sparkというソフトウェアがデータ解析界隈でこれからくる計算基盤になるのではと注目を浴びています こいつを使って、ちょっと簡単なTwitterネガポジ分析をしてみましょう TL;DR sparkは比較的新しい分散処理基盤 その中にStreamを扱うライブラリがある ec2で手軽にクラスタを組んで試 […]

AWS EMRにspark-jobserverを構築してREST経由でJob実行させる

Sparkを利用して、ジョブをパシパシ叩きたかったのですが、どうやってジョブ実行をしようかな、と悩むことになりました。 クラウド依存になりたくなかったので、できればKinesisストリームは使いたくないな。。と思いつつも下記のように調べてみました。 利用可否 Streamingか単発ジョブか アドホックな引数設定の可否 懸念 KinesisとSpark Streaming 可 Streaming やや難しい。 GCPとかMS使いたくなっ […]

Spark 1.4.0 の SparkR で Quick Start してみる #rstatsj

Spark 1.4.0 から SparkR が正式採用されました。 「Apache Spark 1.4」が公開–R言語をサポート、機械学習パイプラインAPIが安定版に さっそくやってみたという方からの報告があります。 Spark 1.4.0 の SparkR を動かす SparkR の特徴として 主に DataFrame を扱う用 RDD を扱う関数は隠蔽されている magrittr との相性が良い dplyr ライクなデー […]

EMR上でPython3系でpysparkする

概要 機械学習・データサイエンスといえばpython(numpy/iPython/scikit-learn)なのでpythonで書いていきたい。 しかし、仕事柄大規模なデータを扱うことになるので、分散できるsparkのAPIで取り扱いたい。 ということで(EMR)クラスタ上でpysparkを動かしてみます。 今からpython学ぶなら3系だろうということで3系(Anaconda3-4.0)で動かします。 不安だったので確認したけど、sp […]

Spark MLlib でネイティブライブラリを使う

Spark と MLlib Sparkはオープンソースの分散処理フレームワークです。 Hadoopと比較した場合、インメモリで処理を行うため繰り返しの計算に強く、特に機械学習にメリットがあります。 Sparkは標準でMLlibという機械学習ライブラリを用意していて、キラーアプリといえる存在になっています。 MLlibにはBLASのような著名なアルゴリズムが用意されています。 MLlib と Netlib MLlibのアルゴリズムには、J […]

Spark + IPython環境をAmazon EMR上で構築し、簡単なData解析を動かして見る (第2回:KPI算出編)

はじめに 第1回目で立ち上げたSpark ClusterにAccess Logを喰わせて、色々処理を廻してみる部分をチラシの裏しておきます。 (第1回)Amazon EMR上でのSpark Clusterの起動/設定方法 Spark, IPythonの設定方法 Spot instanceについて (第2回)Sparkを使って簡単なAccess Log解析 (★今回はココ) Access LogをS3から読み込んで、ETLする Acces […]

Spark を使うにあたり Google Cloud Dataproc を利用する5つのメリットと注意点

はじめに iQONでは、アイテムのレコメンドといった大規模データの計算が必要な際には、Spark の MLlib という機械学習のライブラリを使っていますが、その際に Google Cloud Platform (GCP) のマネージド Hadoop & Spark サービスである Dataproc で計算を行っています。 本記事では、実際に業務で使ってみた上で、Dataproc にどのような特徴があり、他の類似サービスと比べて […]

1 21