統計

1/9ページ

Pythonを使った回帰分析の概念の解説 その1

最近、機械学習、人工知能等が流行っておりその基盤となる統計学についての知識が重要となっていると思います。そこで、統計学の中でもその効果がわかりやすい回帰分析の原理についてPythonで計算したりグラフを書いたりしながら概念的に理解できることを目的として説明を試みたいと思います。 統計の専門家ではないので、もしご指摘・コメントありましたらぜひご連絡ください。数学的に厳密でない点もあると思いますが、ご容赦ください… データセット […]

雇用統計予測モデルの構築

概要 ご存知の通り、米国の雇用統計はFXの世界では最重要指標として注目されます。基本的に毎月第一金曜日の日本時間22:00くらいに発表され、その結果によって為替レートが大きく動きます。 一般に雇用統計では民間予測と発表値の乖離がどのくらいあるかが重要になってきます。ですので、より正しい予測をすることは重要です。 今回は色々な指標から発表前に予測が可能な雇用統計予測モデルを構築したいと思います。 モデル構築の注意点として、使用する指標が発 […]

色んな統計量のバラツキを求めたい!再標本化 (Bootstrap)のススメ

 データ解析はまだまだブームのようです。機械学習であれ何であれ、まずデータが与えられてすることは、データを視覚化して、解析のとっかかりとなる仮説をつかむことですね。仮説を検証するため、様々な解析をして様々な統計量を計算します。   そんなことをしていると、ある統計量の母集団におけるバラツキが知りたい、という事態に出くわすことがあります。  それがデータの平均値であれば、標準誤差 (standard error of the mean)と […]

Azure MLで相関行列の作成

「Azure Machine Learningで相関行列の作成ができないか」というご質問があったのでやってみたらできた。 TL;DR Azure Machine Learning Studioで相関行列は計算できる。 Statistical Functionsから、Compute Linear Correlationを使えばOK。 サンプルはCortana Intelligence Gallery: 相関行列サンプルを参照。 用語の説明 […]

【統計モデリング】2章 確率分布と統計モデルの最尤推定

統計モデリング(通称:緑本)を勉強したので、1章ずつ記事にしておく。 緑本を読んだことがない人も理解できるように書いていく。 教えることが最強の勉強法らしいからね。 統計モデリングの流れ 観測データを得てから、良い統計モデルを作るまでの流れをざっくり説明 どのような確率分布・統計モデルで観測データを説明するか 確率分布のパラメータはどうやって決めるか 決めた統計モデルが、推測データを説明できる良いものかを評価 パラメータの最尤推定 確率 […]

多変量解析の超基本!知られざるロジスティック回帰分析のアルゴリズム導出

はじめに どのサイトも小手先だけのロジスティック回帰分析を行っているが、理論的な数式はほとんどない。 どこよりも丁寧な“数式”でロジスティック回帰分析のパラメータ取得アルゴリズムを解説します。 ※またここでは、最尤法により導出される対数尤度関数を最大にするパラメータを Newton 法を用いて求めるアルゴリズムを紹介します ロジスティック回帰の歴史は生存確率の推定 ロジスティック回帰分析(ロジットモデル)は、その […]

ディリクレ分布の最尤推定

$$ \newcommand{\b}[1]{\mathbf{#1}} $$ ディリクレ分布の最尤推定 今回はディリ分布の最尤推定法による数値最適解を得る方法について説明したいと思う。 二項分布や指数分布、正規分布などの簡単な分布では解析解を得られが、ディレクレ分布のような高次元で複雑な確率分布になると最尤推定やMAP推定で解析解を求めることは基本的に出来ない。そこで、数値的な計算処理をして求める必要がある。 特にディレクレ分布はナイーブ […]

統計の素人だけどPythonで機械学習モデルを実装したい、そんな人のための第一歩

はじめに 『統計にそんなに詳しくないけど、機械学習とかのモデルを自分で実装してみたい!』 ってことよくありますよね? 『そんなこと全くないわー(#^ω^)』って思った人も素直になってください。 絶対に一度は思ったことがあるはずです。 とくにPythonでロジスティック回帰を実装したいと思ったことがある人は多いと思います。 多いはずです。 ここでは、統計の知識をヌルくと説明しつつPythonで実際に動くLogistic回帰モデルを実装しま […]

シンプルな中国語の単語頻度統計の例のPythonの実装

この記事では、単純な中国語の単語頻度統計の例を実装するPythonを紹介し、次のように全員と共有します。 タスク 小説で最も頻繁に現れる漢字の統計 知識ポイント ファイル操作 2.辞書 3.ソート 4.λ コード import codecs import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams['font.sans-serif'] = ['FangSong' […]

1 9