numpy

1/26ページ

PythonでGIST特徴量によるシーン認識

numpy, scipy, scikit-learn, scikit-imageといったライブラリを擁するPythonは 機械学習屋さん,CV屋さん御用達言語ですが, これらを使ってシーン認識するために, Cで書かれたGIST特徴量抽出ライブラリのPythonラッパーを作りました. GIST 特徴量 A. Torralbaが開発した特徴量でシーン認識に向いていると言われています. Deep Learning全盛の今,今更感ありますが,手 […]

[学習用実装]層別サンプリング(Stratified Sampling)をPythonで実装する(1)

エントリ概要  層別サンプリング(stratified sampling)は、母集団の分布を良く維持してサンプリングするための手法です。pythonでは、scikit-learn の StratifiedShuffleSplit および train_test_split で実装されています。普段、機械学習モデルを交差検証(cross validation)をする際によくお世話になっています。  ツールとして使うのにとどまるのではなく、理 […]

Pythonで数値計算

numpyとか使うとよい。以下読めばだいたい出てる。 Python Scientific Lecture Notes(和訳) Tentative NumPy Tutorial(和訳) SciPy Tutorial SymPy 0.7.1-git documentation 機械学習の Python との出会い 以下、自分で使ってみた例。 問題4.19の解答(台形公式、シンプソンの公式) 問題4.13の解答(回転体の表面積) 問題4.7と […]

【Python】画像読み込み時の記述方法による実行速度の比較

初めに 前回の記事(Neural Network Console を用いた超解像処理の実装)が初投稿にもかかわらず、23いいねと予想以上のいいねをいただきました。(2017/11/19 現在)本当にありがとうございました。 そして今回は、前回のNeural Network ConsoleのGUI操作ではなく、Pythonで文字による実装を行いました。その時に、画像の読み込みについて一つ検証を行いましたので、メモを残しておきます。 配列の […]

python初心者のnumpy勉強記録

1.目的 2018/5/7にnumpyに初めて触れた私の勉強記録。ちょこちょこ更新します~。強い人、優しく教えてください。 2.そもそもnumpyって? pythonのライブラリの一つで、数値計算や機械学習によく用いられるらしい。Aidemyのコースで無料の範囲まで少し学習させてもらいましたが、通常のpythonでのリストの計算より圧倒的に高速。 3.使い方 Anacondaなり何かで環境構築していることを前提にします。なお、pytho […]

セルフィッシュマイニングのインセンティブ分析(マルコフ決定過程による分析)

つい先日、Monacoinでセルフィッシュマイニング(Block Withholding Attackといったほうが正確なのかもしれません)が行われていたことがわかりました。事件の詳細は大石さんのこちらの記事が詳しいです。 早速セルフィッシュマイニングに関する分析記事も出ていましたので興味深く読みましたが、分析内容に関しては下記の点が気になりました: 記事中の式 $n(p_{n,0}(R+x)−W) $ は、$n(p_{n,0}R−W) […]

線形回帰の Normal Equation(正規方程式)について

前置き 某 オンライン機械学習コース の Linear Regression with Multiple Variables(多変量線形回帰)で出てきた、Normal Equation(正規方程式)について。 Andrew Ng 先生(以降、Ang先生 と略記)が「導出するのめんどい(意訳)」と言って結果だけ示されたので、ちょっとだけ掘り下げてみました。 その中で、疑問点も浮かんできたので共有してみます。 私自身、まだちゃんと分かってな […]

[python] Numpyで巨大な配列を効率的に処理するためのTips集

機械学習などで大規模なデータを扱っていると、ごくごく自然にそれらのデータをpandasやnumpy配列に突っ込んで処理したくなるときがあります。 Pythonの場合、forループを回すよりもnumpyの関数を使ったほうが圧倒的に高速なケースは多々あり、日々numpyの恩恵を受けています。 それでも、例えば数万✕数万の行列の演算をしようとすると途方もない時間がかかる、もしくはデータが巨大すぎて1つの配列にデータを保持したまま演算しようとす […]

Numpy Arrayで作業する時に配列をcopyしているかを確認する簡単な方法

データの処理をする時にnumpy arrayをいじる時が度々あります。 データ量が多くなるとデータ処理のパフォーマンスを考えざるを得なくなります。 色々パフォーマンスチューニングのポイントがありますが、 その中で影響の大きい一つが、numpyのデータをcopyしてるかどうかになります。 例えば、下記の例を見ましょう。 a = np.zeros(10000000) # 1. copyせずに元データを書き換え a *= 2 # 2. 元デー […]

PythonでPLSAを実装してみた

概要 PythonでPLSA(確率的潜在意味解析: Probabilistic Latent Semantic Analysis)を実装してみました。 高速化やエラー処理(log(0)の対策など)はまた後日。 PLSAとは クラスタリング手法の1つで、 文書dがP(d)で選ばれる トピックzがP(z|d)で選ばれる 単語wがP(w|z)で生成される というモデルです。 式にすると P(d,w) = P(d)\sum_{z}P(z|d)P […]

1 26