hive

1/3ページ

EMRのSparkでレコメンドを実装する

はじめに エムスリーAdvent Calendar 2016 最終日はデータ活用の王道、協調フィルタリングによるレコメンドをAmazon EMR上のSparkで実装します。 O’REILLYのSparkによる実践データ解析の第3章を元ネタに音楽の再生時間のデータを元にしたアーティストのレコメンドを実装してみます。 協調フィルタリングって何?という方は、ECサイトの「この商品を買った人はこんな商品も買っています」というのをイメ […]

HivemallでMatrix Factorization

本記事は、Spark, SQL on Hadoop etc. Advent Calendar 2014の8日目の記事だったはずの原稿です。 Movielensデータセットを使って、HivemallにおけるMatrix Factorizationの実行方法を解説します。 はじめに 以前、Hadoop Conference 2014で発表させて頂いたときに聴衆の方にアンケートをとったところレコメンデーションの需要が(クラス分類か回帰分析と比 […]

hivemallを利用してlogistic回帰を実行して、からの疑問

hivemallを利用してlogistic回帰分析をトライする 目的 以下のデータを利用して、logistic回帰分析を実施してみます。 logistic回帰分析を実施するために必要な準備や考えなければならないことを出していくことを目的としてトライアルになります。 銀行の顧客ターゲティング【練習問題】 検証の流れ データのダウンロード トレーニング用データの一部をダミー変数に置き換える データをhiveクエリを利用して、登録する hiv […]

SQLだけで機械学習するぞ-Hivemall入門-

こんにちは。onunuです。 IESHILでエンジニアをしています。主にSQLを描くのがお仕事です。 以前はマッハバイト(旧ジョブセンス)で開発していたのですが、SQLで座標平面を描く能力を評価してもらい、座標上の2点間の距離計算とかいっぱいする不動産のサービスに異動になりました。地球は球なので大変です。 さてさて、本記事はLivesense -自- Advent Calendar 2017のために書かれています。 テーマは 自 、とい […]

YumのインストールCDH5.5ハイブ、インパラプロセス詳細

まず、ハイブをインストールします コンポーネントは次のように配置されています。 172.16.57.75 bd-ops-test-75 mysql-server 172.16.57.77 bd-ops-test-77 Hiveserver2 HiveMetaStore 1.ハイブをインストールする 77にハイブをインストールする: # yum install hive hive-metastore hive-server2 hive-j […]

Pythonは、ハイブデータテーブルのスキーマインスタンスコードをエクスポートします。

このペーパーの主な問題は、Python言語がハイブデータテーブルのスキーマをエクスポートし、次のように実装コードを共有することです。 無限のクエリの操作を避けるため、mysqlのクエリ値を持つデータをハイブにインポートし、Hueをオープンソースのクエリツールとして使用することにしました。 おそらく、彼らはテーブル構造について多くのことを知らないだけでなく、テーブル構造の説明を提供する必要があるので、ハイブデータベースから各テーブルのフィ […]

Hive de CSV(TSV) – もっと賢いUDF

UDFを継承したクラスではなく、GenericUDFを継承するともっといい感じになるようだ。(今回の場合) ということで、前回作成したArrayStringToStringUDFをStringなArrayでなくても良いように改変してみる。 GenericUDFを継承したArrayToObjectUDFクラスを作成する。 GenericUDFを継承した場合、基本的には以下の2つのメソッドのオーバーライドで機能を実現する。 initiali […]

Hive 定義済み関数でできない集計処理は、まず Reflect 関数を試す

概要 Hadoop/Hive で集計を行う際、定義済み関数で実現できない集計処理は カスタムUDF を作成したり、結果を出力してから別プログラムで処理したり、といった方法で対応することになります が、別コードを書く手間もありますし管理も面倒なので、Hiveクエリ内で処理できれば楽です 実行したい処理が 既存のJavaクラスで対処できる場合、Hive の Reflect関数によって、独自のラッパーを書かず実現できる かもしれません 環境 […]

1 3