hadoop

1/19ページ

hadoopでのConfigurationオブジェクトとFilSystemの使い方は何ですか?

質問: コンフィグレーションconf = newコンフィグレーション(); FileSystem fs = FileSystem.get(URI.create( "/ user / algo / wy / tmp")、conf); これは、hdfsシステム上でファイルを開く一般的な方法です。 しかし私は理解していない: Confは空の設定ファイルのように感じますが、空の設定ファイルは内部に有用な情報を持たないのと同じ […]

EMRのSparkでレコメンドを実装する

はじめに エムスリーAdvent Calendar 2016 最終日はデータ活用の王道、協調フィルタリングによるレコメンドをAmazon EMR上のSparkで実装します。 O’REILLYのSparkによる実践データ解析の第3章を元ネタに音楽の再生時間のデータを元にしたアーティストのレコメンドを実装してみます。 協調フィルタリングって何?という方は、ECサイトの「この商品を買った人はこんな商品も買っています」というのをイメ […]

Azure HDInsight(on Linix)でMahoutを使ってみる

Azureで機械学習したいなら、API化とかが簡単にできるAzure ML使うほうがいろいろ楽ですが、オーソドックスにMahoutを使う手順も確認してみます。とは言え普通のLinuxクラスタでMahout使うのと何も変わりません。 基本的にはここの通りやれば良い。 HDInsightクラスタの作成 詳しくはこちらをご覧下さい。2015年12月17日現在、利用できるMahoutのバージョンは0.9のようです。 また、各HDInsightの […]

dockerでhadoopクラスター作成

hadoopクラスターを触ってみたくてdockerで構築してみた クラスター自体はambariを使って構築した 環境 Mac OS: 10.13.4 docker: 18.03.0-ce docker-compose: 1.20.1 概要 正式名称はApache Hadoop、Apache Ambariらしい。apacheすごい Apache Hadoopは分散処理を行うためのフレームワークであり、分散ファイルシステム(HDFS)やスケ […]

HivemallでMatrix Factorization

本記事は、Spark, SQL on Hadoop etc. Advent Calendar 2014の8日目の記事だったはずの原稿です。 Movielensデータセットを使って、HivemallにおけるMatrix Factorizationの実行方法を解説します。 はじめに 以前、Hadoop Conference 2014で発表させて頂いたときに聴衆の方にアンケートをとったところレコメンデーションの需要が(クラス分類か回帰分析と比 […]

hivemallを利用してlogistic回帰を実行して、からの疑問

hivemallを利用してlogistic回帰分析をトライする 目的 以下のデータを利用して、logistic回帰分析を実施してみます。 logistic回帰分析を実施するために必要な準備や考えなければならないことを出していくことを目的としてトライアルになります。 銀行の顧客ターゲティング【練習問題】 検証の流れ データのダウンロード トレーニング用データの一部をダミー変数に置き換える データをhiveクエリを利用して、登録する hiv […]

ヨーダが「Size matters not」って言ってたけどデータがでかすぎてトレーニングが終わりません

3400万件の100文字程度の日本語のテキストを150万件のラベルに分類しようとしています。アドバイスください。 どこまでやったか EC2のc3.8xlargeを1台用意しました(ごついやつ) 日本語をmecabで切り分けました sk-learnでvectorizeしました(MAX_FEATURES=10000) sk-learnでTruncatedSVDしました sk-learnでnormarizeしました ライブラリ外でCython […]

1 19