sklearn

1/4ページ

sklearnでナイーブベイズによるテキスト分類にチャレンジ

実践 機械学習システム の第6章にナイーブベイズによるテキスト分類事例があったので、自分でもチャレンジしてみます。 やること sklearnのデータセット 20newsgroups を sklearn.naive_bayes.MultinomialNB 使ってカテゴリ分類します。 CountVectorizer を利用して、 ドキュメントを単語出現頻度の行列に変換する MultinomialNB を利用して、ナイーブベイズ分類器を学習さ […]

Python3を使った日本語自然言語処理③疎ベクトルの生成

単語を特徴ベクトルに変換するとは 実際に文章の中に現れる単語を機械学習のアルゴリズムに渡すためには、それを数値に変換する必要があります。テキストを数値の特徴ベクトルに変換する方法として有名なものにBoWモデルがあり、今回はそれを使ってサクッと単語からベクトルを作ります。 Bowモデルとは BoWモデルとはBags-of-Wordsの略で、これ自体は 1. 文章から単語(token)からなる語彙を作成 2. 各文章での単語の出現回数を含ん […]

偏差値以外の観点で大学を選んでみる

はじめに 僕が高校生だったとき、どの大学を受験するかは自分の偏差値をベースに考えた。 以下のような表が高校の教室の後ろに貼ってあって、それを見ながら志望校を決めた気がする。 まぁ、妥当な決めかただったと思うけど、もっと違う軸で大学を見てみても面白かったかなと今更思って、今回は機械学習の勉強がてら違うパラメータで大学を見てみたいと思う。 進学に大事な要素 今回は、私の独断と偏見で以下の4つの要素で大学を評価する。 将来のお給料 理由:大事 […]

【Kaggle】タイタニック生存予想をとりあえずsubmit

機械学習勉強中の文系Webディレクターです。 文系のくせにずっと機械学習に興味があり、本格的に手を出し始めました。 近いうちにゴリゴリとモデル構築とかを行える人になりたい。 なにはともあれとりあえずKaggleという流れがあるらしいのでやってみました。 Submitまでは正直簡単です。問題はこの後の精度向上。 大枠の流れは下記のようになります。 IDデータ、正解ラベル、特徴データに分類する カテゴリ変数(データが文字のもの)をOneHo […]

【翻訳】scikit-learn 0.18 チュートリアル 外部リソース、ビデオ、トーク

http://scikit-learn.org/0.18/presentations.html を google翻訳した チュートリアル 目次 / 前のチュートリアル 外部リソース、ビデオ、トーク 書かれたチュートリアルについては、ドキュメントのチュートリアルのセクションを参照してください。 初めて科学的なPythonをお使いですか? 科学的なPythonエコシステムを新しく始めるときは、 Python Scientific Lectu […]

データの前処理① Imputerとdropnaで欠損値の処理

Sklearnでのデータ前処理① 欠損値の処理 データの前処理とは 実際の業務などで使うデータで完璧に整備されているものはとても少なく、空欄があったり(欠損値)、異常値があったりと分析をする際に障害となってしまうものが含まれているのがほとんどです。よって、データ分析をする上でデータの前処理はとても大切な役割を果たします。むしろ、前処理がないと機械学習モデルに当てはめることができないのでなにも始まりません。また、この前処理のできの良し悪し […]

なぜニューラルネットはSVMに勝てないのか

tl;dr 目的:なぜ簡単な問題においてパーセプトロンよりもSVMのほうが性能が良いことが多いのか、それは本当なのかを考察する。 特に、ラベルあたりのデータ数に偏りがある場合。 SVM、単層パーセプトロン、SVMと同じ損失関数の単層パーセプトロンで振る舞いを比較した。 定性的な評価だが、SVMがもっともよかった。少なくとも損失関数の違いだけではないことがわかった。 最適化法の違い、パラメータの選び方が効いているのかもしれない。 はじめに […]

【翻訳】scikit-learn 0.18 User Guide 1.13 特徴選択

http://scikit-learn.org/0.18/modules/feature_selection.html を google翻訳した scikit-learn 0.18 ユーザーガイド 1. 教師付き学習 より 1.13. 特徴量の選択 sklearn.feature_selectionモジュールのクラスを使用すると、推定器の精度スコアを向上させたり、非常に高次元のデータセットでのパフォーマンスを向上させたりするために、サン […]

PythonでMNISTを利用する方法まとめ

MNISTとは 概要 MNISTは28×28ピクセルの手書き数字のデータセット。 Deep Learning界隈の人は、とりあえずベンチマークとして使うことが多い。 各ピクセルは0から255の整数値をとる。 画像は全部で7万枚あり、内訳はtraining dataが6万枚、test dataが1万枚。 最初からtraining dataとtest dataが分かれているのがポイント。 これをそのまま使うこともあるが、 training […]

ロジスティック回帰による分類

ワインの分類モデルを作成 概要 フリーで手に入るワインのデータを用いて分類のモデルを作成する。 実際にモデルを作成、採択する際にどのような手順を踏んで行くかを追って行く。 1:データ獲得 data_get.py import pandas as pd import numpy as np wine_data = pd.read_csv( 'https://archive.ics.uci.edu/ml/machine-learning-d […]

1 4