mecab

1/9ページ

PostgreSQL の全文検索機能を使って文脈を分類したりする

PostgreSQL の全文検索機能で, 実際のテキストデータをゴニョゴニョしてみます. いわゆるやってみた系の記事です. クエリの効率とかそっちのけです. やること 口コミやアンケート形式のテキストデータに対して, 1. 出現単語の頻度を調べる 2. 文脈の傾向とその推移を調べる 学術研究用に livedoor グルメのデータが公開されているので, そちらを利用させていただきます. – livedoor グルメの Data […]

64bit Windows + python 2.7 + MeCab 0.996 な環境をつくる

修正履歴 2016/2/19 コードの修正・必要なファイルの更新 2016/2/19 トラブルシューティングの追加 はじめに そもそもWindowsでなぜ?という話があると思いますが、理由は一つ。Windowsには強力なIDEであるVisual Studioがあるからです。 コード補完、スニペット、デバッグ・・・・多くのメリットがあるIDEですが、いかんせんWindowsでの環境構築には難所が多く、Python関係だとビルドの問題で詰ま […]

Wikipediaを元にした単語辞書に頒布義務はあるのか? キュレーションサービスを巡る法的論争。

結論 頒布義務があるようです。形態素解析用の単語辞書をご提供いただき、ありがとうございました。 考察 キュレーションサービス(ニュースアプリ。Webコンテンツを集めてユーザーにオススメするサービス)は、Webコンテンツを分類する為に内部で辞書を持っています。その辞書をもとにコンテンツの文章を単語に分け、その単語群からそのコンテンツの特徴を把握します。この辞書はキュレーションサービスにとって、ビジネスの要であると言えます。なぜならば、正確 […]

Word2Vec, MeCab, ComeJisyo で病気の症状類似語を出してみた

エムスリー(ヘルスケア系)のAdvent Calendar に参加しているので、ヘルスケア系機械学習ネタ ちょっと前に業務とは関係なく、症状類語辞書をつくりたいなーーというときがあった。(結局できてないけど そのときに去年流行った word2vecを使って機械学習で症状の類義語がどれくらい精度よく出てくるかをやってみたのでその話を書く 今回の流れ 医療文書が入ったtextファイルを作成 MeCab へ医療用辞書 ComeJisyo を設 […]

Rで自然言語処理。Pixiv小説で単語別の出現数を調べる。

概要 日本語の形態素解析ツールMeCabを統計処理用言語Rから使う。 RからMeCabを使う事により、 機械学習用パッケージとの連携が期待できる。 Pixiv小説の本文をAPI経由で取得し、単語別の出現数を調べる。 事前準備 RCurlのインストール RMeCabのインストール コード trymecab.r library(RCurl) library(RMeCab) story <- getURL("http://spapi.p […]

Ubuntu 14.04 に Mecab と mecab-python3 をインストール

概要 Mecabはオープンソースの形態素解析エンジンです。機械学習のための前準備として、日本語の文章を分かち書きにするため利用することができます。Mecab をインストールして Python から利用できるようにするのがこの記事の目標です。 環境 Ubuntu 14.04 64bit gcc 4.8.4 Python 3.5.2 :: Anaconda custom (64-bit) インストール手順 1. Mecab この記事を参考に […]

Raspberry Pi ロボットに顔識別と感情認識をしてもらう。

Raspberry Pi と Arduino でつくったロボットに顔識別と感情認識が出来るようにしてみました。 RaspberryPi-Robot face recognition – YouTube 「感動詞」に対して、顔識別と感情認識をします。挨拶してみます。 「こんばんは。」 「感動詞」をオウム返しするのと同時にカメラのシャッターを切ります。 ロボット側から見るとこんな感じです。pon_dadの確率20%、感情はかなり […]

自然言語処理入門 まとめ【Python + Janome + gensim】

対象 初学者を対象に書いてます。自然言語処理の理解の手助けになれば幸いです 何か間違いあったらご指摘お願いします 勉強会に行ってその内容を自分なりにまとめたのでおかしい部分あるかもです 自然言語処理の基本となる形態素解析から、実務で用いやすいtf-idfやWord2Vecまでの仕組みの説明と実際にサンプルコードを用いたハンズオンを行いました。 少々高校数学の知識が必要ですが、全体的に理解しやすく簡単にハンズオンまで行けたので非常に実用性 […]

pythonで言語処理するためのライブラリインストール方法(Mecab/Cabocha)

英語だと、nltkライブラリを活用すればいいし、そもそも英語は単語ごとに区切られているので、単語をそのまま特徴ベクトルに変換して機械学習すればいい。 日本語の場合は、 nltkライブラリで扱える範囲が限定されている 形態素解析(=単語ごとに分割して、品詞タグを付与)して、 構文解析(=文節ごとに区切って係り受けの関係を付与)するのが必要 ということで、日本語を扱う上でのライブラリのインストールめもです。 日本語の場合、下記のツールが利用 […]

BoUoWでWord2Vec

自然言語処理で、 言語のベクトル化とか、Cos類似度とか、分かち書きとか、機械学習とか・・・・・ いろいろ興味があって挑戦はするのですが、いつも途中で挫折してしまい。。。。 挫折しても、どうせまたすぐりやたくなって、その時のための備忘録的に書いていけたならと思って書いていこうとおもっています。 ではまず、なぜBUWを使う必要があるのかというところからいきます。 なぜならば、漠然としてしまいますが、Windows10とAnacondaでJ […]

1 9