作業時間:5時間
内容:アンケートのための単語抜き出し
KHCoderを使用して共起ネットワークや階層的クラスター分析などを使って共起の関係にヒントがあるかと思いきや何もなく前回+頻出度10までの単語を全削除して1000単語ほどにまで絞り込めたがそこからどうやって絞り込めばいいのか方法を探索中。
一応「よくわかるうつ病」の症状に出てきた
不眠や食欲、無気力といったものを元に、
うつっぽい単語を手動で絞り込んでいるところ。
だがまだ470単語ほど…何かの基準がほしいところ。
作業時間:5時間
内容:アンケートのための単語抜き出し
KHCoderを使用して共起ネットワークや階層的クラスター分析などを使って共起の関係にヒントがあるかと思いきや何もなく前回+頻出度10までの単語を全削除して1000単語ほどにまで絞り込めたがそこからどうやって絞り込めばいいのか方法を探索中。
一応「よくわかるうつ病」の症状に出てきた
不眠や食欲、無気力といったものを元に、
うつっぽい単語を手動で絞り込んでいるところ。
だがまだ470単語ほど…何かの基準がほしいところ。
今週の目標:Dictionaryファイルの適用と形態素解析ソフトの入れ替え
達成度:0%
作業時間:
10/20(木) 3時間半
10/21(金) 4時間半
10/24(月) 1時間半
10/25(火) 3時間
10/26(水) 3時間半
合計約16時間くらい
jumanとmecabの入れ替えは難しいということで
感情辞書を元に数値だけを足して割るプログラムを作成
結果と算出ツールを比べた結果、あまり大差ない結果に…。
中身としては細かい「した」「しか」などの細かい部分が該当してしまってだいたい4の値に近づいていってしまうということ。
そこで他の辞書も試してみることに。
東京工業大学高村先生の「感情極性対応表」を試してみた。
これは正の値か負の値かでネガポジを判断するものですが、
-1~1で細かい数値が割り振られているので使えるかなと思ったがこれもイマイチな様子。
(感情辞書よりはよかった)
月曜加納先生のJava講座のあと先生と相談をして
新しい感情辞書を作れないかという話に。
もう一度くらいなら研究室内や、先生にお願いして
授業でアンケートを大規模に取れないかという話と、
今感情辞書にある感情の3軸(楽悲、嬉怒、長閑緊迫)を2軸に絞れないかという話に。
その2つをまとめた時、もう一方の長閑緊迫で辞書が2つになる。
そこにアンケートとネガポジの軸をあわせて2軸にできないかと考えた。
現在ある辞書
・楽しい嬉しい⇔悲しい怒り
・長閑⇔緊迫
・ネガポジ
+アンケート
水曜に組み合わせて作るより
もはや辞書を自分で作った方が早いということで
10000ツイート形態素解析したものを以下の基準で絞り込んだ。
・名詞、動詞、形容詞、副詞のみに絞る
・非自立、接尾、固有名詞、特殊、代名詞、副詞可能、ナイ形容詞全削除
・英数字削除
・半角の文字削除
・頻出度1桁のもの削除
・2文字以下ひらがなカタカナ削除
・文頭が小さい文字で始まるもの
これらから残った1,000単語頻出度上から100個位を
選んで大規模にアンケートを取りたい。
作業時間:3時間半
内容:アンケート用単語抜き出しと進捗スライド作成
もはや辞書を自分で作った方が早いということで
10000ツイート形態素解析したものを以下の
基準で絞り込んだ。
・名詞、動詞、形容詞、副詞のみに絞る
・非自立、接尾、固有名詞、特殊、代名詞、副詞可能、ナイ形容詞全削除
・英数字削除
・半角の文字削除
・頻出度1桁のもの削除
・2文字以下ひらがなカタカナ削除
・文頭が小さい文字で始まるもの
これらから残った1,000単語頻出度上から100個位を
選んで大規模にアンケートを取りたい。
作業時間:3時間くらい
内容:アンケート用に10000ツイート形態素解析したものから再度単語を絞る、軸の決定
加納先生との話で
楽悲と嬉怒の軸はまとめられないかという話があった。
その2つをまとめた時、もう一方の長閑緊迫(わかりにくいのでリラックス⇔緊張とする)
で辞書が2つになる。そこにアンケートとネガポジの軸をあわせて2軸にできないかと考えた。
1つ目の軸(ネガポジ)
・楽悲嬉怒+ネガポジ+アンケート?
2つ目の辞書(リラックス緊張)
・リラックス緊張+ネガポジ+アンケート?
作業時間:1時間半
内容:次のアンケートについてのまとめ
加納先生のJava講座のあと先生と相談をして
新しい感情辞書を作れないかという話に。
もう一度くらいなら研究室内や、先生にお願いして
授業でアンケートを大規模に取れないかという話と、
今感情辞書にある感情の3軸(楽悲、嬉怒、長閑緊迫)、
試しにやってみた単語感情極性対応表の軸(ネガポジ)の話で
辞書2種類とアンケートを使って2軸に絞れないかという話に。
それらについて考えをまとめていました。
作業時間:4時間半
内容:感情値を算出するプログラムの作成とそれに伴うもろもろ
感情値算出ツールの算出方法がブラックボックスということで
感情辞書のみを使って感情値を算出するプログラム(テキストに一致する単語を引っ張ってくる、そして感情値の合計値/該当件数を出すもの)をまた加納先生にやってもらいました。
本当毎回申し訳ないです…
そしてそのプログラムの結果と算出ツールを比べた結果、
あまり大差ない結果に…。
中身としては細かい「した」「しか」などの細かい部分が該当してしまってだいたい4の値に近づいていってしまうということ。
そこで他の辞書も試してみることに。
東京工業大学高村先生の「感情極性対応表」を試してみた。
これは正の値か負の値かでネガポジを判断するものですが、
-1~1で細かい数値が割り振られているので使えるかなと。
とりあえずアンケートを取ったテキストでやってみると
ほぼ正しい感じだったんですが
明るいと思っていた「フォロバありがとうございます」のツイートもマイナスの値を示したためこれも微妙…
自分で辞書作るほうが早いと言われましたがたしかにそうかも…
とまで思う始末
とりあえず一個の評価基準に持っていくために残りの時間は
アンケートの値と算出値と換算値と極性対応表の値の
変換式を考えていました。
これは研究が本格的に成果出せないにおい。
次回は熊本先生の感情辞書と高村先生の極性対応表を比べて
新たな辞書をなんとか作りたいかな…とか思ってますが
辞書に固執すればするほど研究が遠ざかってます。キリない
作業時間:3時間半
内容:卒論最終テーマの決定、感情値算出ツールについての相談
感情辞書拡張に伴って形態素解析について
jumanとmecabを入れ替えるためにmecabがどうやって動いているのかを
調べた結果、パスを通したりがめんどくさいらしい
そして感情値算出ツールの中身を見た結果
jumanで形態素解析した結果を感情辞書と照らし合わせてその数値を合計して
平均値を出すものだと思っていたし実際そうだった
だがそもそも形態素解析がうまくいってなかった事が判明
(よって感情辞書と照らし合わせることができないため感情辞書は多分大半使われていないかも)
結論として感情辞書だけ使って
解析したいテキストデータと照らし合わせて
平均値を出すプログラムを考えることになりました。
今週の目標:感情辞書の拡張
達成度:2%
作業時間:
10/13(木) 3時間
10/14(金) 5時間
10/17(月) 8時間
10/18(火) 6時間
10/19(水) 0時間
合計約22時間くらい
内容:
アンケート結果をまとめた。
評価として
否定的(ネガティブ)
やや否定的
どちらかと言うと否定的
どちらかと言うと肯定的
やや肯定的
肯定的(ポジティブ)
に0~5の値を振り、10単語0~5の平均値を出し、
それを5分の1することで各文の印象値を出す。
単語が含まれる文1~3文分の印象値で各単語の感情値を決定した。
結果
フォロワー 0.422222
ツイート 0.4
フォロバ 0.866667
症候群 0.253333
もう少し 0.486667
双極性障害 0.271111
躁鬱 0.313333
動悸 0.26
やる気 0.426667
図書館 0.713333
となった。
Twitterの用語が中間の値に近く、病気や症状は0に近いのを見ると
辞書拡張に適用できるものにはなったと思う。
だがDictionaryを更新しても
makeでは書き換えたものが反映されていないらしい
これが適用されていないのか形態素解析の問題なのか
これを辞書に追加し感情値算出を行った結果
何も変化がなかった。原因は形態素解析の段階で
文字がバラバラになってしまうことだった。
(例:双極性障害=「双極」「性」「障害」など)
そこで形態素解析のツールも変える必要が出始め、
MeCabのNEologdをインストールしていた。
10月17日更新の記事参照。
これを感情値解析ツールに適用するのが次週の目標。
次週の目標:Dictionaryファイルの適用と形態素解析ソフトの入れ替え
作業時間:0時間
内容:個別ゼミ、加納先生のJava講座
個別ゼミでNEologdの話をしたところ
nkfがあるから文字コードは考えなくていいということに。
明日からは現在感情値算出に使用しているjumanが
感情値算出ツール内のどこで指定されているかを調べる
作業時間:6時間くらい
内容:ポスター作成、NEologdとMeCabの比較など