10月14日(金)

作業時間:5時間
内容:感情値拡張に伴う形態素解析ソフトの辞書変更

感情辞書拡張のためにアンケートから10単語の印象値を算出したが、
楽しい⇔悲しい
嬉しい⇔怒り
長閑⇔緊迫の3軸で取らなかったので(完全に自分のミス)
とりあえず3つの辞書全部に10単語を追加した。
ここで問題となったのが感情値を当てはめる前段階の形態素解析。
形態素解析で単語がちゃんと出てこなければ当たり前のように
感情値が出てこず形態素解析ソフトをいじる必要があった。
(例:双極性障害だと双極と性と障害とバラバラになってしまう)
感情値算出ツールで使われているのはjumanだが
算出ツールの設定で適用できるかもしれないというような話と
先生にも聞きやすいということでMeCabをいじることにした。

今回選んだ10単語をCSVファイルとしユーザー辞書として追加することを試みた。
加納先生に協力してもらったおかげで辞書ファイル化には成功したが
適用されないという問題が発生した。

MeCabで形態素解析するのにはIPAという辞書が推奨されておりそれを使っていたが
最近mecab-ipadic-neologdというWeb上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム辞書を入れて使っていたのでそれはどのような方法で適用されているのか調べたところこっちの辞書も適用されていないことが発覚。
neologdの大元であるGithubを見ながらインストールを試みるも
うまくいかず踏んだり蹴ったりなのが今の状況。

もはやこのページを公開して判断を仰ごうとも思ってしまっているほど
というか一体自分は何を研究しているのかわからなくなってきた。
研究テーマを辞書拡張にしたいくらい。

投稿者: kame_238

Twitterに関する研究をしています。 よりいい方法などありましたら教えていただけると助かります。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です