機械学習

2/349ページ

Mac (El Capitan) + Homebrew で CUDA 7.5 をインストールする手順

割りと面倒だったのでメモ。走り書き同然なので注意。そのうち別記事で書き直すかも。 Web+DB Press 2015 10月号の深層学習のサンプルで使用しているChainerのインストール指示に、CUDAなるものもオプションっぽく記述されていたのでインストールしようとした。もちろんHomebrewベース。 普段pythonを使ってないので、いろいろ調べて回るはめになった。普段pythonを使ってない人向けに手順を残す。 環境構築以前の手 […]

scikit-image, scikit-learnで画像分割 (Image Segmentation)

この記事のゴールはクラスタリングによる画像分割アルゴリズムを体験することです.対象はcamera manにしましょう. (全てipython –pylab上で動かします.) from skimage import data,io image=data.camera() io.imshow(image) クラスタリング対象は各ピクセルです.データ数n,次元数dとしたとき,クラスタリングアルゴリズムを使うには,n×d行列を作らな […]

Spark の MLlib を使った Dataproc でのレコメンドシステムの実装

はじめに 前回の Advent Calendar の投稿では, 簡単に Dataproc の特徴について説明を行いましたが、今回は, 実際に Dataproc を使ったレコメンドシステムの実装について解説したいと思います。 実装するシステムの概要 【追記】 下記では、BigQuery から直接読み込む実装にしていますが、データ量が大きい場合(数百MB以上)は、テキストデータに比べて読み込みに大幅に時間がかかるため、BigQuery から […]

NT倍率からアベノミクスの始まりを調べる 2

NT倍率のトレンドが変わった 前の記事において,2つの株式指数Topix / Nikkei225 の分析,特に回帰分析からNTのプロットは大きく2つのTrend Lineにのっていること,また時系列的には,勾配が緩やかなTrend-1(NT ratio=10.06) から勾配が急なTrend-2 (NT ratio=12.81) に変わってきたことが分かった. ** 図.前記事の図(Topix vs. Nikkei225) の再掲 ** […]

主成分分析PCAを用いて手書き数字を分析する。その1

始めに 手書き数字を分析するのもなんだかシリーズ化してきましたが、今回は主成分分析(PCA:Principal Component Analysis)とその教師ありバージョンとも呼べる線形判別分析(LDA:Linear Discriminant Analysis)をつかって分析をしてみたいと思います。pythonの機械学習ライブラリscikit-learnを使っています。 【過去の手書き数字データ分析記事】 手書き数字をpythonでも […]

主成分分析PCAを用いて手書き数字を分析する。その2

昨日の記事に引き続きPCAを使っていきたいと思います。LDAの説明をする予定だったのですが、ちょっと予定を変えて今日もPCAのみです。 カオスの中に… 43000個の手書き数字データをPCAで2次元に落としてグラフにしたのが下記です。 手書き文字784次元を2次元に落とすという無茶な分析をした結果のグラフがこれですね。”1″とか”0″とかはわりと分離できているのですが、R […]

ClojureとLIBLINEARによる自然言語処理

はじめに ホリデープログラマが趣味で自然言語処理をしてみます。 この投稿は、 「日本の自然言語処理の研究または研究者を増やし日本の自然言語処理の発展に貢献したい」 ついでに「Clojureのよさを知ってもらう」 というのが目的です。 今回は、LIBLINEARというものを試してみます。 公式サイトは、台湾の大学の研究室 になります。 論文は、[https://www.csie.ntu.edu.tw/~cjlin/papers/guide […]

形態素解析型の全文検索エンジンを実装してWikipediaを全文検索

Wikipediaを検索する形態素解析型の全文検索エンジンを実装します。検索文字列と各記事の類似度を計算して、類似度順に検索結果を表示することで全文検索を実現します。高速に検索するために索引と逆索引を実装していきます。 以前書いた【レコメンド】内容ベースと協調フィルタリングの長所と短所・実装方法まとめの続き記事です。全文検索を検索文字列に類似する記事をレコメンドする機能と考えると、形態素解析型の全文検索エンジンは内容ベースフィルタリング […]

Chainer 以外

ずいぶん下書きで眠っていたので、書いている途中ですが公開します。 Chainer が流行っていますので、それ以外についてまとめます。 個人的には、Python使いであれば Keras、Java/Scala な方は DeepLearning4J が使いやすいと思います。 Keras Keras は Theano ベースのライブラリです。 あまりメジャーではありませんが、活発に開発が進められており、設計がシンプルで、かなり自由度が高く、また […]

Microsoft Project Oxford による音声合成・音声認識

Microsoftでは、2015/5/1からProject Oxfordと呼ばれるプロジェクトの一環で、機械学習系のAPIをリリースしました。 MicrosoftのProject Oxfordから、顔、画像、音声認識APIが利用可能に 今回は、この中から音声合成・音声認識を行うSpeech APIを取り上げます。 というのも、音声合成を行ってくれるサービスは結構あるのですが、音声認識となるとAPI的に使えるものは結構限られていたりするた […]

1 2 349