クラスタリング

1/3ページ

関連のある文章を見つける

実践 機械学習 の3章まで来たのでメモ代わりに書いておこうかと思います。 3章では関連のある文章を見つけます。 ちなみにこの本、章が進むに連れて訓練用データが取得しにくくなります。 初版なので仕方ないですが、Twitterの投稿取得とかもう鬼畜レベルに難しいです。(データ集めが)Twitterは規制が厳しいので大変です。 具体例を示すと、Yahoo知恵袋,プログラミング専門のQ&Aサイトteratail などに投稿された文章デー […]

ファジィクラスタリングについて

ファジィクラスタリング 今回は、クラスタリングの一手法であるファジィc-平均法(Fuzzy c-means)を紹介します。 クラスタリング データ解析の分野で広く用いられる、データの集合を部分集合(クラスタ)に分割する手法です。 教師なし学習の一種でもあります。 階層的クラスタリング 重心法 群平均法 ウォード法 などなど。 出力がデンドログラムによって表示されるのが特徴 非階層的クラスタリング 計算の高速なことなどから、ビジネスの場で […]

sphereclusterで、球面クラスタリングを扱えるようになる

sphereclusterに至った経緯 コサイン距離でクラスタリングしようと思ったら、球面クラスタリングに辿り着いた。 大きな次元のノイジーなデータを扱う際に、距離尺度としてコサイン距離の方のクラスタリングを行いたかった。階層的クラスタリングの距離尺度をコサイン距離にするのが手軽ではあるが、非階層的アルゴリズムに比べると計算量が多く、対象のデータ量が数十万以上になると実用的ではない。 ということで、非階層でコサイン距離を使ったクラスタリ […]

クラスタリングの不可能性定理について

背景 機械学習の手法のひとつであるクラスタリングは、データの特徴により分類を行います。クラスタリングには様々な手法がありますが、その多くは距離関数を利用して有限個の点を分類します。 昨今、IT業界で機械学習がブームになっていますが、クラスタリング手法の能力について、理論的な視点からあまり言及されていないのではないかと思います(あくまでも、IT業界内の話)。利用している手法で「できること」だけでなく、「できないこと」をハッキリさせるのも重 […]

Rでシーケンス クラスタリング

Rでシーケンスなクラスタリングをする必要がでてきたので勉強して、まとめておく。 用途としては状態があり、時間によって遷移するものをクラスタリング出来る。例としては、天気予報(前日に晴れ、今日は曇り)でいろんな地域をクラスタリングしたいといった用途やwebページの人の訪れをクラスタリング(LP→カテゴリー1→広告)に行くパターン等々・・・。 ・使うパッケージTraMineR・cluser sample.R library(TraMineR […]

階層型クラスタリング

階層型クラスタリング いえーい、機械学習やその他色々について得た知識を 復習and記事作成の練習and個人の備忘録としてまとめていくぜーい! 今回は、教師なし学習の”クラスタリング”の手法の一つ、 “階層型クラスタリング”について書いていくぜーい! ⚠︎※※注意※※⚠︎ ・出来るだけ専門知識のあまりない人に対して、分かりやすく書くことを目標にしています。  そのため、厳密に言うと間違ってい […]

YouTuberデータセット公開してみた

はじめに 過去記事(YouTuberマイニング #1, YouTuberマイニング #2)でYouTuberのChannelから情報を取得する方法を紹介してきましたが、めでたくYouTuberデータセットを作成・公開することができました。 (Python1行で読み込むことができます) 本記事では、YouTuberデータセットについて、またこれを使った簡単なデモを紹介します。 YouTuberデータセット データセットURL: YouTu […]

クラスタリングにおける問題点、注意点

はじめに 言語処理のための機械学習入門の3.6「クラスタリングの問題点や注意点」を読んで、備忘録としてクラスタリングを扱う自身の研究メモも交えてまとめる。 言語処理のための機械学習入門 (自然言語処理シリーズ)   クラスタリングとは 似ているもの同士を同じグループにまとめる処理。 与えられたデータから何らかのモデルや処理手段を導き出す教師なし学習の一種。 データからどんなグループができるかはわからず、できあがったクラスタをみて初めて、 […]

機械学習を使って画像の圧縮をしてみた

はじめに 代表的なクラスタリングアルゴリズムである K-Means を用いて、画像の圧縮をしてみます。まずは、K-Means のアルゴリズムについて説明します。そのあと、K-Meansを使った画像圧縮について説明します。なお、内容についてはCoursera Machine Learningを参考にしています。 クラスタリングとは? データの集まりをデータ間の類似度に従って、いくつかのグループ(クラスタ)に分けること。 K-Means ア […]

1 3