textmining

大量のニュースから興味関心のある話題をベイジアン分類で抽出する

前々回はニュースデータを収集するために RSS/Atom フィードを利用する話を書きました。 RSS/Atom フィードには全文配信と要約配信があり、昨今ではページビューを稼ぐため要約配信、特にリンクがリダイレクトになっているものや、本文がカラのものが多いという話をしました。 全文配信 … タイトル、リンク、それに記事本文全体を含むフィード 要約配信 … タイトル、リンク、記事の一部のみまたは本文がカラのフィード フィードデータをためる […]

text miningや方向情報の特徴抽出に便利な,超球上に分布する点をクラスタリングする方法

初めに 研究の関係で,3次元のベクトルデータを機械学習の入力とする必要がありました. データの形式としては,数秒ごとに長さがばらばらの3次元ベクトルを取得します. ベクトルの方向のみに着目するとし,合成ベクトルの長さを1へ正規化します. このように大量の時系列で得られた方向データをどのように特徴量抽出すれば良いか,というのが本内容です. 結論から言って,von Mises-Fisher Distribution (vMFD)からパラメー […]

文書の特徴をベクタライズする

これまでテキストマイニングの流れを説明し、文書から TF-IDF を指標として特徴となる語彙を抽出し、それらの語彙を可視化するといったことをしてきました。 少し間が空いてしまいましたが、こうして得られた文書の特徴をベクタライズする流れを今回は記述します。 ベクトル化する 機械学習などの手法で文書を扱うにあたり、まずその対象の特徴を数列 (一次元配列) にするのがよくある方法です。 線形の数列同士であれば、たとえば類似度を算出したり、似た […]

ワードクラウドで、政党アカウントの発言の違いを可視化できるか その1

初めての投稿です。 見にくかったらすみません! 私はプログラミングが苦手です。Rもそんな使えません。 この記事は、私と同じような境遇で、それでもRを使いたいと強く願う全ての方に、応援する気持ちを込めて、発信することが目的です。 あと、自分への備忘録。 一緒に頑張りましょう。 環境は、windows10で、Rstudioを使ってます。 結果から言うと、できませんでした。。。 誰か出来る人いたら、助言欲しいです。 大まかな流れ 1.各政党の […]