10月26日(水)

作業時間:3時間半
内容:アンケート用単語抜き出しと進捗スライド作成

もはや辞書を自分で作った方が早いということで
10000ツイート形態素解析したものを以下の
基準で絞り込んだ。

・名詞、動詞、形容詞、副詞のみに絞る
・非自立、接尾、固有名詞、特殊、代名詞、副詞可能、ナイ形容詞全削除
・英数字削除
・半角の文字削除
・頻出度1桁のもの削除
・2文字以下ひらがなカタカナ削除
・文頭が小さい文字で始まるもの

これらから残った1,000単語頻出度上から100個位を
選んで大規模にアンケートを取りたい。

投稿者: kame_238

Twitterに関する研究をしています。 よりいい方法などありましたら教えていただけると助かります。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です