自然言語処理

1/34ページ

lamtramツールキットを使って、ニューラル機械翻訳を試す

言語モデルの作成から翻訳まで、ニューラルネットワークを用いた言語処理が盛んである。 前から気になっていたニューラル機械翻訳(以下NMT)をツールキット(lamtram)を用いて試す。 いくつかハマリどころがあったので作業内容を記す。 – cnnのインストール設定 – CUDAのパス なおインストール作業は、CUDA(GPU)を利用する設定で行った。 lamtramのインストール lamtramとは lamtram […]

東村アキコの「主に泣いてます」のセリフからキャラクター設定をWekaを使用して分析する

こんにちは自称計量東村アキコ学第一人者の @makito です。漫画家の東村アキコ先生は多作で、作品内に文字も多いため自然言語処理を用いた計量分析に向いています。ところで計量東村アキコ学としておりますが、一応文化計量学や計量文献学という大変真面目な学問分野の流れを汲んでいると思っております。文化計量学は、例えば紫式部の文学を分析したり、浮世絵の美を分析したりと文化的な貢献をしている大変貴重な学問です。 最近ではコミック工学というカタカナ […]

翻訳を行うニューラルネットワーク ByteNetの概要

Bytenetとは2016/10/31にDeepMindから投稿された論文,”Neural Machine Translation in Linear Time“にて提案された機械翻訳をするニューラルネットワークです.音合成をするニューラルネットワークとして提案されたWaveNetと同じように,Dilationを導入することによって,遠い時系列の相関を学習することができます.さらに,学習にかかる時間が,文章の長さ […]

ルールベースの判別ロジックに決定木を使ってみる

Livesense Advent Calendar 22日目を担当しますtaiseです。 21日目はeriさんの「ChucKで発見!自分の好きな音。」でした。 そろそろAdvent Calendarも終盤戦です。 絶え間なきUser Agentとの戦い HTTPリクエストを送る際に、利用しているエージェント(ブラウザ等)の情報が書かれている、あのUser Agentについてです。 例えば、提供しているWebサービスの画面描画が崩れたとい […]

CaboChaで始める係り受け解析

注意 著者は自然言語処理(NLP)初心者です。 記載内容に間違いがある場合は、コメントを頂けると助かります。 MeCabの後には、何で遊ぼう? CaboCha(南瓜) CaboCha(南瓜)とは? CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzer CaboCha は, SVM(Support Vector Machines) に基づく日本語係り受け解析器です。 […]

単純なキーワードマッチングを超えたWikiPediaの知識を利用した自然言語処理を行いたい方へ

キーワードマッチングを超えた知識を利用する価値 人間間の会話では”Twitter”や”Facebook”がSNSだなと分かって会話ができたり、”ヤマハ”と言われても前後の文脈で”ヤマハ”がバイクの”ヤマハ”かピアノの”ヤマハ”か分かります。 これは単語の背景に関連する知識情報を利用できているから […]

Sentencepiece : ニューラル言語処理向けトークナイザ

少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。 サブワード ニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号 […]

Wikipediaを元にした単語辞書に頒布義務はあるのか? キュレーションサービスを巡る法的論争。

結論 頒布義務があるようです。形態素解析用の単語辞書をご提供いただき、ありがとうございました。 考察 キュレーションサービス(ニュースアプリ。Webコンテンツを集めてユーザーにオススメするサービス)は、Webコンテンツを分類する為に内部で辞書を持っています。その辞書をもとにコンテンツの文章を単語に分け、その単語群からそのコンテンツの特徴を把握します。この辞書はキュレーションサービスにとって、ビジネスの要であると言えます。なぜならば、正確 […]

Wikificationをしてみよう ~Wikipediaを利用した情報抽出 & 曖昧性解消まで ~

この記事で紹介すること Wikificationができるパッケージを作ったので紹介 Wikificationって何? Wikificationの利点は? どうやって使うの? どうやって動作しているの? そもそもWikifcationって何よ?? 一言で簡単にまとめると、テキスト内の単語をWikipediaの記事と関連付ける作業です。 一例として、このような文があったとしましょう。 2016年現在出場しているのはヤマハ、ホンダ、スズキ、ド […]

テキストデータで特徴量選択をする

この記事で紹介すること 特徴量選択するパッケージ作ったので紹介 テキストデータから特徴量選択することの大切さ 代表的な特徴量選択の手法 かんたんな例 てかなんで、特徴量選択とか必要なの? これを読んでいる方は、すでにテキストデータから特徴量(以下、素性)を抽出して何かしろの機械学習を試したことがある方だと思います。たとえば、文書分類とかですね。 Qiitaをサクッと探してみてもいくつか「やってみた系」の記事が見つかります。 モーニング娘 […]

1 34