Kaggle

1/13ページ

文章特徴抽出ライブラリWordBatchを試してみる

GWを使って、文章から特徴を抽出するライブラリwordbatchを試しました。wordbatchって何なの?って人も見たことあるって人もこれから使ってみようという人にも役に立てればと思います。 WordBatchとは こちらで公開されております。 一言で言うと 「機械学習用の並列処理テキスト抽出ライブラリ(予測器付き)」です。 ミニバッチで文章からの特徴抽出を行うため、少ないメモリかつ並列処理で文章からの特徴抽出が可能です。カスタマイズ […]

【Kaggle】タイタニック生存予想をとりあえずsubmit

機械学習勉強中の文系Webディレクターです。 文系のくせにずっと機械学習に興味があり、本格的に手を出し始めました。 近いうちにゴリゴリとモデル構築とかを行える人になりたい。 なにはともあれとりあえずKaggleという流れがあるらしいのでやってみました。 Submitまでは正直簡単です。問題はこの後の精度向上。 大枠の流れは下記のようになります。 IDデータ、正解ラベル、特徴データに分類する カテゴリ変数(データが文字のもの)をOneHo […]

非負値テンソル因子分解をクーポンの購買データに適用した

書いたコード 稚拙な出来ですが、Github でコードを公開させていただいています。 補足 非負値テンソル因子分解(以下、NTF)とはなんぞや? という方はNTFの概要と更新式の導出と簡単なデモを記載しましたので、こちらもご覧ください。NTF以前に非負値行列因子分解(以下、NMF)がよくわからないって方にも、記載した参考文献が役立つと信じています。 クーポンの購買データへの適用 去年 Kaggle で催されたリクルートのクーポン購買予測 […]

Kaggleまとめ:BOSCH(kernels)

はじめに 過去に参加したKaggleの情報をアップしていきます. ここでは,BOSCHのカーネルで公開されていた便利なコードをピックアップします. コンペ概要や優勝者のコードに関しては,Kaggleまとめ:BOSCH(intro+forum discussion),Kaggleまとめ:BOSCH(winner)にまとめており,こちらはサンプルコードを交えたデータの解析結果をまとめたものになります. 本記事はPython2.7, nump […]

Kaggleまとめ:BOSCH(winner)

はじめに 過去に参加したKaggleの情報をアップしていきます. ここでは,BOSCHの上位者が公開した情報についてまとめます. コンペ概要やkernelに関しては,Kaggleまとめ:BOSCH(intro+forum discussion),Kaggleまとめ:BOSCH(kernels)にまとめており,こちらでは解析結果やテクニックについての議論にフォーカスしています. 本記事はPython2.7, numpy 1.11, sci […]

Kaggleまとめ:Redhat(前編)

はじめに 過去に参加したKaggleの情報をアップしていきます. ここでは,Predicting Red Hat Business Valueのデータ紹介とフォーラムでの目立った議論をピックアップします. コンペ優勝者のコードに関しては,Kaggleまとめ:RedHat(後編)にまとめており,こちらは概要,ディスカッション,サンプルコードのまとめになります. (現在作成中) 本記事はPython2.7, numpy 1.11, scip […]

お手軽ツールでデータサイエンス実験 [1/3] 準備&Tableau可視化編

はじめに 無料でも使える高機能なツールを使ってデータ分析と機械学習っぽい事をやってみました。 下準備 Kaggleは、世界中のデータサイエンティストが与えられた課題に対して最適なモデルを競い合うサイトです。アカウントを作ってログインしておきましょう。 Titanic: Machine Learning from Disaster は入門チュートリアル的な課題です。1912年に沈没した豪華客船の乗員乗客のうち生き残った人と亡くなった人の傾 […]

Kaggle: Bag-of-words と Ensemble 学習でマルウェア分類 (Microsoft Malware Classification Challenge)

Kaggle の Microsoft Malware Classification Challenge に参加してました。最終結果は 383 チーム中 26 位。初の Achievement (top 10%) が貰えました。 以下、構築したモデルについてのラフな説明です。 タスク マルウェアのクラス分類 入力:hexdump ファイル (.bytes) と assembly ファイル (.asm) 出力:マルウェアのクラス確率 (9種 […]

【Kaggleチュートリアル】タイタニック号で生き残るのは?

はじめに  機械学習のお勉強として、Kaggleのチュートリアルである「Titanic: Machine Learning from Disaster」にチャレンジしてみました。 【Kaggle初心者入門編】タイタニック号で生き残るのは誰? という素晴らしい記事を参考にさせていただき、Pythonを使ってデータを読み込むところから、機械学習のモデルを作成・予測してKaggleへデータを投稿するところまで実施しました。 ただし、この記事で […]

【Kaggleのはじめかた】チュートリアル ML編 part2

更新しながら投稿いたしますのでご容赦ください 前回の記事 【超初心者向け】kaggleのはじめかた part1 https://qiita.com/mozi/items/f2f42a96bfdc235a60aa 前回はkaggleのチュートリアルの存在と、kernelを利用することでpythonの環境構築に煩わされることなく始められることをお伝えしました。今回は実際にチュートリアルのLevel 1をやってみたいと思います。 Level […]

1 13