word2vec

1/7ページ

word2vec.cを読んでみる(1)

そもそも 最近?巷で流行っているword2vecですが、 (word2vecで何ができるの?という方はあんちべさんのブログをみてみるとイメージしやすいかと思います。 ただ、中身のロジックであるC-BOWとskip-gramが全然わからないので コードから何をやっているんだろうというのを理解しようとしてみました。 その時のメモです。(ほぼCBOWについてしか書いてないです) リポジトリの中身 実際に使ってみたことのある方はわかるかと思いま […]

Wikificationをしてみよう ~Wikipediaを利用した情報抽出 & 曖昧性解消まで ~

この記事で紹介すること Wikificationができるパッケージを作ったので紹介 Wikificationって何? Wikificationの利点は? どうやって使うの? どうやって動作しているの? そもそもWikifcationって何よ?? 一言で簡単にまとめると、テキスト内の単語をWikipediaの記事と関連付ける作業です。 一例として、このような文があったとしましょう。 2016年現在出場しているのはヤマハ、ホンダ、スズキ、ド […]

Word2Vec, MeCab, ComeJisyo で病気の症状類似語を出してみた

エムスリー(ヘルスケア系)のAdvent Calendar に参加しているので、ヘルスケア系機械学習ネタ ちょっと前に業務とは関係なく、症状類語辞書をつくりたいなーーというときがあった。(結局できてないけど そのときに去年流行った word2vecを使って機械学習で症状の類義語がどれくらい精度よく出てくるかをやってみたのでその話を書く 今回の流れ 医療文書が入ったtextファイルを作成 MeCab へ医療用辞書 ComeJisyo を設 […]

ウェブページの構成単語をword2vecしてkmeansしてみた(APIもあるよ)

はじめに 先日、色んなサイトのTF-IDFを調べてみたという投稿をしましたが、今回はサイトの構成単語をWord2VecしてKmeansして、サイトの特徴的な単語が取れないか実験してみました。Word2Vecは日本語Wikipediaで作りました。Word2VecもKmeansもdeeplearning4jを使っています。 やってみる せっかくなので、先日と同じ記事を分析してみましょう。 Qiitaの場合 いまさら聞けないLinuxとメモ […]

Jupyter Notebook: 4 banal tips and tricks

12月23日のきょうは今上天皇の御誕生日をお祝いする「天長節」。ついでに皇紀二六七六年(素数?いや、$2^2 \times 3 \times 223$)だそうで、謹んでお喜び申し上げるとともに、この佳き日にあたり呉港で満艦飾見物とでもいきたいところだが、手元不如意につき昼過ぎから難波の高架下にて南海電車のdefなバイブスとIPAをレフトハンドにつれづれなるまま、ここのところの手なぐさみである Jupyter Notebook のよくある […]

word2vecであそんでみる

word2vecとは word2vec は、2013 年に Google がオープンソース化した自然言語処理のプロジェクトらしい。 文章を読み込んで単語の意味を学習し、各単語の意味を多次元ベクトルで表現することができるらしい・・・(よくわらかん) もしかしたらSlackBotでなんか面白いことができるんじゃないかと思って試してみる。 とりあえず自分の会社用Dockerコンテナにいれてみる。 githubから持ってきてmake comma […]

BoUoWでWord2Vec

自然言語処理で、 言語のベクトル化とか、Cos類似度とか、分かち書きとか、機械学習とか・・・・・ いろいろ興味があって挑戦はするのですが、いつも途中で挫折してしまい。。。。 挫折しても、どうせまたすぐりやたくなって、その時のための備忘録的に書いていけたならと思って書いていこうとおもっています。 ではまず、なぜBUWを使う必要があるのかというところからいきます。 なぜならば、漠然としてしまいますが、Windows10とAnacondaでJ […]

word2vec のオプション一覧

今更ながら 米googleの研究者が開発したWord2Vecで自然言語処理(独自データ) を見ながら word2vec へ入門した。 色々と学習を進めるとトレーニングコマンドのオプションがまとまっているページがなかったのでまとめてみた。 が、入門したての私にはわからないものがほとんど。そして意味がわかってもどういった使い方をすればいいのかがわからないという結果に。。 word2vec のオプション オプション 内容 備考 -train […]

「赤の他人」の対義語は「白い恋人」 これを自動生成したい物語

背景 「造語対義語」がちょっと面白いと思ったので、Word2Vecを応用して機械に作らせてみよう!という試み。 やりたいことは、以下のようなギャグ対義語を自動生成すること。 「赤の他人」⇔「白い恋人」 「ウサギは寂しいと死ぬ」⇔「ゴリラは孤独を背負い生き抜く」 「生きろそなたは美しい」⇔ 「死ねブス」 「冷やし中華始めました」⇔ 「おでんはもう辞めました」 「コアラのマーチ」 ⇔ 「ゴリラのレクイエム」 「やせ我慢」 ⇔ 「デブ大暴れ」 […]

15分でできる日本語Word2Vec

gensimのライブラリを使うと、Word2Vecを使うことは恐ろしく簡単です。 (パラメータのチューニングは別にしてとにかく使ってみるという目的であれば) しかし、日本語を対象にする場合、形態素解析をしないといけないというハードルがあり、それがWord2Vecを使いにくいものにしている気がしています。 以下で説明する手順は、このことを考慮して、「最短コースで日本語Word2Vecを使う」という目的に注力して作ってみました。 (2018 […]

1 7