statistics

1/7ページ

【統計学】stanでロジスティック回帰の実行を割と詳しく解説してみる(w/ Titanic dataset)

StanをつかってTitanicデータをロジスティック回帰してみて、さらに分類の性能評価を少し行ってみるという記事です。 この記事で使う確率的プログラミング言語「Stan」では分布のパラメーターの推定に、ハミルトニアンモンテカルロ法(HMC法)とNUTSという手法が用いられています。厳密には乱数の発生原理が異なるのですが、もう少しシンプルな手法にマルコフ連鎖モンテカルロ法 メトロポリス・ヘイスティングス法(MH法)があります。この動作原 […]

Pythonを使った回帰分析の概念の解説 その1

最近、機械学習、人工知能等が流行っておりその基盤となる統計学についての知識が重要となっていると思います。そこで、統計学の中でもその効果がわかりやすい回帰分析の原理についてPythonで計算したりグラフを書いたりしながら概念的に理解できることを目的として説明を試みたいと思います。 統計の専門家ではないので、もしご指摘・コメントありましたらぜひご連絡ください。数学的に厳密でない点もあると思いますが、ご容赦ください… データセット […]

過去のデータからビッグデータ分析で株価を予測する

今日は 15 年ぶりに日経平均が 19,000 円台を一時回復し、 6 月末までには 2 万円に達するのではとの声も出ていますが、そんな中ビッグデータ (笑) 分析で株式の分析をする話です。 効率的市場仮説 金融の世界には効率的市場仮説というものがあり、どのような情報を利用しても他人よりも高いパフォーマンスを継続してあげることは不可能であるという説があります。これほど誤解されたりあるいは都合良く解釈されたものはないと筆者は考えます。 こ […]

理工学分野に登場する統計の基本的な知識

統計学とは 昨日は先物取引を例に金融データをモデル化・シミュレーションする例を説明しました。 統計学はそもそも様々な応用分野で成熟してきたものです。その源流は主に次の 3 つに大別されます。 国の実態をとらえるための「統計」 大量の事象をとらえるための「統計」 確率的事象をとらえるための「統計」 19 世紀の半ばにアドルフ・ケトレーによって社会現象・自然現象いずれも数量的にとらえる「統計」として成立しました。「近代統計学の父」の功績から […]

データ分析において必要なことを原点に立って考えてみる

今日は統計や技術の詳細な話は少しお休みして、そもそもデータマイニングとは何なのか、分析において必要なことは何なのかを考えてみます。 仮説力とは何なのか データ分析の実務においては、分析モデルの手法や統計的方法の前にまず検討しなければならないことが多々あります。たとえば分析対象の問題をどのように設定するか、対象の特徴 (= 属性、振る舞い等) をどのように表現するか、何を可視化するかあるいはそれをどう決めるか、ログなどを用いて特徴の計算方 […]

統計学の代表的な手法を実践する (4) 〜 因子分析

前回までロジスティック回帰の話でしたが今日は因子分析の話です。 最初に掲げた一般化線形モデルの表を参照してください。 因子分析とは、複数の変数があったとき、その背後にそれらに影響する構成概念があるものと仮定し、少数の潜在的変数で複数の変数間の関係を説明しようというものです。 このように少数の変数へと変換することを縮約、またこの構成概念を説明する潜在的変数を因子と言います。因子分析は背後に共通した因子が想定できる変数を縮約し、新しい量的な […]

Python × Bradley-Terry's Modelでセ・パ両リーグの戦力値遷移を可視化

Bradley-Terry’s Model これは、「強さ」を図るモデルです。 簡単にいうと、試合の結果から各々の「強さ」を数値化できるよっていう概念です。 以下の論文が参考になりましたので、詳しくはこちらをご覧ください。 「強さ」に対する定量的評価法とその応用 n個の要素 (チームや個人) があり、何らかの対戦を行うものとする。 対戦は 1要素 対 1要素 のマッチで行われ、その結果は片方の要素の対して勝利、または敗北しか […]

R言語 – センサーデータにランダムフォレストを使ってみる

はじめに  本 Tips では、UCI Machine Learning Repository(注1)のセンサーデータを使ったランダムフォレストによる分類をご紹介します。利用するセンサーデータは、モータの不良を11に分類した計測結果が含まれます。49列目に分類された結果が格納されています。1~48列目は電気信号のデータですが、詳しい列名などは不明です。 ランダムフォレストアルゴリズムとは?  ランダムフォレストは、分類、回帰、クラスタリ […]

統計学の代表的な手法を実践する (6) 〜 ビジネスにおける分析の流れ

統計学の代表的な手法について、人気書籍「統計学が最強の学問である実践編」に掲載されている一般化線形モデルをまとめた一枚の表を最初に掲げひとつひとつ多変量解析の手法を追ってきました。今回は実際のデータを分析していくにあたり留意すべき事項をまとめます。このあたり上記書籍からの引用抜粋を含みます。 ビジネスにおける分析の手順 今まで説明したとおり * 量的なアウトカムに対しては重回帰分析 * 質的なアウトカムに対してはロジスティック回帰 をお […]

ベイズの定理で解くモンティ・ホール問題

機械学習に必要な高校数学やり直しアドベントカレンダー Advent Calendar 2016の5日目の記事です。 4日目の記事はkazutarosuさんで数学ガールについてでした。 数学ガール、聞いたことがあるだけで読んだことはないので、これを気に読んでみようかと思いました。 この記事では、ベイズの定理を使ってモンティ・ホール問題を解いてみようかと思います。 一部高校数学の範囲を超えているところがあるかもしれませんが、ご容赦ください。 […]

1 7