またしても久々の投稿になってしまいました.
少し前の話になりますがDBWeb2007というデータベース関連のシンポジウムに参加してきました.
その中でブログに関するセッションがあり,スパムブログの調査を行っておられる方のお話を聞いてきました.
ある期間に投稿されたブログ記事集合に対してサンプリングを行い,そのサンプル中に含まれるSplogの数から全体のSplogの数を推定するお話と,ブログ記事内に含まれるoutリンク数からSplog を判別するというお話でした.
Splogの多くはoutリンクを多く含んでいるので,これによってある程度Splogを除外できそうです.
スパムブログの定量的調査と分離の試み(島根県立大・石田和成先生)
http://castor.kyoto-su.ac.jp/dbweb2007/program-dbweb2007.htm
DBWebとは別ですが,Splogに関する調査を行っています.
まだまとまってはいませんが,資料を以下のURL にアップしておきます.
http://www.race.u-tokyo.ac.jp/~fukuhara/Research/paper/07/07Nov04NLPmeeting-splog.pdf
少し前の話になりますがDBWeb2007というデータベース関連のシンポジウムに参加してきました.
その中でブログに関するセッションがあり,スパムブログの調査を行っておられる方のお話を聞いてきました.
ある期間に投稿されたブログ記事集合に対してサンプリングを行い,そのサンプル中に含まれるSplogの数から全体のSplogの数を推定するお話と,ブログ記事内に含まれるoutリンク数からSplog を判別するというお話でした.
Splogの多くはoutリンクを多く含んでいるので,これによってある程度Splogを除外できそうです.
スパムブログの定量的調査と分離の試み(島根県立大・石田和成先生)
http://castor.kyoto-su.ac.jp/dbweb2007/program-dbweb2007.htm
DBWebとは別ですが,Splogに関する調査を行っています.
まだまとまってはいませんが,資料を以下のURL にアップしておきます.
http://www.race.u-tokyo.ac.jp/~fukuhara/Research/paper/07/07Nov04NLPmeeting-splog.pdf