goo blog サービス終了のお知らせ 
goo

直近の7週間のブログ記事でタグマップを生成するようにしました

先々週のエントリで報告しましたように、タグマップの生成に使う分析対象のブログ記事を、直近の5週間から6週間に延ばし、1800万ブログ記事を基にタグマップを作成するように変更しましたが、先週から更に一週間延ばし、直近の7週間の約2200万のブログ記事を分析するように変更しました。尚、来週の更新では期間の延長は行わない予定です。

期間を延ばすことによって新トピックを表すホットなタグの出現が発生しにくくなるという欠点もあるのですが、タグの種類の変化という観点では、5週間の記事でタグマップを作っていた場合でも、毎週5%位しか変わっておらず、新しいタグの出現は利用者から見てあまりインパクトはありませんでした。一方、期間を延ばすことで、記事をタグマップに割り当てるオートタギングの精度は、かなり高まっているはずなのですが、いかがでしょうか?

Ko a "給食委員" by ブログ通信簿
コメント ( 0 ) | Trackback ( 0 )

北京オリンピックの山地

お盆休み、家でオリンピック放送を見ている方も多いのではないでしょうか。ちなみに、お盆(8月15日)とオリンピックが重なっているのは、戦後のオリンピックでは、2004年のアテネに次いで二回だけなのですね。こんなに暑い時期にやらなくてもと思うのは私だけでしょうか。

本日、今週(2008.8.11更新)のタグマップを更新しました。やはり、オリンピックの話題が盛り上がってきました(下図)。



先週(2008.8.4更新)のタグマップ(下図)と比較するとよくわかります。



山の高さは、既に以前のエントリで述べましたように、概念的な話題の広さと記事の数の両方をある程度反映しておりますが、7月の地図より、さらに、記事数のカウント方法を、従来の過去5週間から過去1週間の記事数に変更し、最近の話題に敏感になるようにしています。この影響もあり、「オリンピック」の山が急に高くなっているのが観測できます。

ところで、北京と言えば、blograngerチームの一部のメンバも今年春に、オリンピックスタジアム「鳥の巣」の隣の会場で開催されたWeb技術のトップカンファレンス(WWW2008)で金メダルならぬBest Poster Awardをいただきました。チョー気持ちよかったです。古い話ですみません。

------------ 2008.8.19 追記-------------

今週はオリンピックも後半戦に入り、オリンピック関連の記事の割合が増えてきましたので、更に、大きな山地になってきました。2008.8.18更新のタグマップにおける「北京五輪」タグ周辺は以下の通り:



Ko the topic trekker
コメント ( 0 ) | Trackback ( 0 )

ゴールデンウィークはどこいく?

ゴールデンウイークも残すところ三日間となりました。今から旅行の計画をしてもホテルなどは予約がとれず、ちょっと遅いですよね。そこで、近場で何か楽しい過ごし方がないだろうか?と思っている方も少なくないのではないでしょうか?そんな皆さんの強い味方がBLOGRANGER TGなのです。

近場ということで、例えば、「神奈川県」という検索語を指定して、「おでかけ」というタグを検索した結果が次の通り:



ゴールデンウイークを神奈川県で如何に過ごすか、参考になるブログが沢山みつかります。

もう少し具体的に、「山」に行きたいという場合には、「山」のタグのクリックすると、



神奈川県でもいろいろな山登りスポットがあることがわかります。このように、他人の行動を参考にできるのは、ブログ検索のメリットだと思います。

ところで、従来、ブログの記事から位置を推定し、地図上にブログ記事を配置するサービス等がありますが、おでかけスポットを探そうと思っても、グルメ情報、ホテル情報、ショップ情報等に紛れて、なかなか適切な情報がみつかりません。
また、「おでかけ」をキーワードにしても本文中には、「おでかけ」とは書かれていないため、ほとんどヒットしないという問題もあります。

一方、BLOGRANGER TGでは、検索語で「場所」を指定し、地図で「行動」を指定することで、このようなケースで簡単に適切な記事を見つけることができます。

「場所」が検索語で「行動」が地図、ややこしや、ややこしや


皆さんの地域でも試してみてください。

Ko the reverse engineer


コメント ( 0 ) | Trackback ( 0 )

土地勘

今週のタグマップの更新を行いました。このところ火曜日の更新が続いております。
先週と今週の広域図を並べてみると:

先週のタグマップ


今週のタグマップ


今回は、このようにかなり似た形状になりました。毎週、過去5週間のタグ間類似度を入力して再計算しているのですが、初期座標として前週の座標を使っているので、本来、このように似たような形状になるはずなのです。実際には、今回のように本当に近い形状になったのは珍しいのですが。

あまり変化がないようにしようと思ったのは、話題空間においても「土地勘」を生かせるようにしたかったからです。とはいえ、BLOGRANGER TGで土地勘が持てる程使いこんで下さっているユーザの方は、いらっしゃらないかと思いますが。。。

Ko the wanderer around the topic space
コメント ( 0 ) | Trackback ( 0 )

タグマップ上での「桜前線」?

春爛漫。お花見シーズン真っ盛りですが、皆様の地域では、桜前線はやってきましたでしょうか?

本日、今週のタグマップを更新しましたところ、先週まで無かった「お花見」タグが出現しました。出現したばかりなので、このタグには、まだ記事は6件程しか記事がありませんが、これからオートタギングにより記事が追加されていくと思いますので、ご期待く下さい。

以下は、「桜」タグ付近のタグマップの現在の状態です。右上に「お花見」や「さくら」タグが見えます。



ところで、タグマップ上では「桜前線」とは何でしょうか?
「桜」で検索すると広域図上に記事があるタグの位置が表示されますが、その広がりがいわば「桜前線」なのかもしれません。


なんかフーリエ変換して周波数領域でみた桜前線みたいな。。。

Ko the "お花" watcher
コメント ( 0 ) | Trackback ( 0 )

タグの種類の変化について - 「超神ネイガー」の生死は如何に

先程、タグマップを今週のバージョンに更新しました。

今週も大幅に地殻変動が起こってしまいました。今週は特にパラメータは変更していないのですが。。。



ところで、このように広域図がこれほど変わっても、ちょっと眺めただけでは、今週になって初めて現れた新しい山などを見つけることは簡単ではないようです。そこでタグマップ上のタグの種類の変化を調べてみました。その結果、今週は263タグが新しく出現して、273タグが消えたことがわかりました。全体で約5,000ですので、約5%のタグに変動があるようです。

このような新しく出現したタグは結構マイナーなものばかりです。たとえば、秋田県ローカルなスーパヒーロー「超神ネイガー」など。このキーワードで記事を検索すると、タグマップ上にもいくつかの記事が検索されます。

ところが、新しく出現した肝心の「超神ネイガーのタグ」のところには、現在、一件の記事もありません。これは、新しく出現したばかりの記事なので、まだ、このタグの条件に合う記事としてタグ付されていないことが理由です。数日後には記事が検索されるようになるかもしれませんし、あるいは来週以降のタグマップでは、再びタグそのものが消えているかもしれません。

このタグが気になる方は、是非、後日、再度上記のタグをクリックしてみてください。皆さんの予想はいかがでしょうか?ちなみに、新しく出現するタグのほとんどは、一時的なものですぐ消えていくケースが多いようです。

----------------------------------------
このエントリを投稿してから、一週間経ち、3月25日に新しいタグマップに更改しましたが、「超神ネイガーのタグ」は生き残っていました。私が想像していたより、強いみたいです。流石です。
しかも、現時点で11件の記事がついていました。

2008.3.25日追記
----------------------------------------

Ko the "超神" blueranger
コメント ( 0 ) | Trackback ( 0 )

今週のタグマップ ― クリオネとサル山

今週のタグマップ更新しました。抽出する類似度の閾値のパラメータを変えたら、随分変わってしまいました。

広域図は、クリオネみたいに



そして、「技術」タグ近辺には、サル山が出現しました(?)



なんか、サルにみえませんか?「楽器」が耳のあたりにあるのが笑えます。

Ko the monkey finder
コメント ( 0 ) | Trackback ( 0 )

ブログ世界の中心で、何が叫ばれる のか?

昨日、百式さんやdankogaiさんをはじめとして、多くのブログでTGパーツを取り上げていただきました。感謝感激です。

あなたのブログがブログ世界のどこに位置するのか、地図で教えてくれる『BLOGRANGER TG』(IDEA * IDEA)

News - ブログ世界の中心で、何を叫ぶ? - BLOGRANGER TG (dankogai)

今日は、dankogaiさんのブログの主要成分?である「書評」タグがなぜ、ブログ界(タグマップ)の中心になったのかについて考察してみたいと思います。実は、アルゴリズムによる必然ではないかということです。

タグマップの生成アルゴリズムは、大まかには次のようなステップで生成しています。

1.ブログ記事を最新一ヶ月分を収集
2.タグ付きブログ記事を分析し、各タグが付与されている文書に特徴的に出現するタグ特徴ベクトルを生成
3.タグ特徴ベクトルの類似度を算出し、タグの類似度グラフを生成
4.類似度の高いタグ同士がお互いに近くになるように(x,y)座標を算出
5.類似度グラフの各ノード(タグ)の中心性スコアによりz座標を算出
6.タグの3次元座標(x,y,z)集合から地形をレンダリング

つまり、タグ間類似度グラフによって地形図を生成しています。その地形図の元となるタグ間類似度グラフはこのような様子です。



これが次のような地形図にレンダリングされるわけです。



さて、このようなアルゴリズムでは、ネットワークの中心には何がくるでしょうか?
それは多くのタグと類似性が高いタグということなります。多くのタグと類似性が高いタグとは、タグの特徴的な単語を多く含むことです。すなわち、語彙が広いタグが中心に来るわけです。

ならばブログ界全体で、多くの語彙を含むタグは何でしょうか?その代表例は「書評」タグなのかもしれません。「書評」では様々な分野の本が紹介されますので、必然的に多くの語彙が使われます。このように考えると、書評が中心付近にくるのがうなずけるのではないでしょうか?

一方、例えば、ゲーム分野は、すでにこちらのエントリでも書きましたように、ブログ界の最も大きななトピックですが、全体からみると周辺部に配置されています。これは、ゲーム分野のタグが付与されている記事で使用される語彙が限定されることが理由ではないかと考えられます。

また、タグの中心性の関係は、ブログ全体ではなく特定のジャンルのローカルマップでも同様ですから、「料理」>「お菓子」>「チョコレート」のように、語彙の多く含むタグがローカルマップでも中心に表示されるようになるわけです。

以上のように、トピックが立っている話題は中心ではなく周囲に顕著に表れますので、なんとかヲタの方は周囲部のタグに要注目です^^。


ところで、上記のフローの各ステップでは結構面白い技術が使われております。これらについても、別途ご紹介したいと思います。
# TGスタッフのShigeru, Tatsushi, Takeshiさん、よろしく!

Ko the blogosphere observer -- this style of signature is not found
コメント ( 0 ) | Trackback ( 0 )

バレンタイン効果

タグマップは過去約一か月のブログを使って生成しています。したがって、今日更新したタグマップは、2月全体を網羅したデータから作っています。2月といえばバレンタインデーがありますので、バレンタイン周辺のタグを見てみました。



確かに、チョコレートやホワイトデー等関連のタグが沢山できていることが分かります。このようなタグは、4月になれば消えていくのでしょうね。

簡単ですが、今週は以上です。

# 他TGスタッフメンバの皆さんもレポートお願いします。

Ko's monologue
コメント ( 0 ) | Trackback ( 0 )

「食品」タグの大移動でみる社会

BLOGRANGER TGは、ほぼ毎週、過去一か月間の約1000万のブログから抽出したタグ付テキストを分析して、タグマップを生成しているので、その変化を注意深くみると社会や人々の意識の変化を把握することができます。

最近一か月の大きな話題としては、冷凍餃子の事件に代表される「食品」の安全性がありますので、今日は「食品」タグに注目してレポートしたいと思います。

以下は、今日更新したマップです。



「食品」タグは、「中国」や「時事問題」、「食の安全」といったタグの近くに配置されていることが分かります。また、右の方に、先週まで無かった「餃子」というタグも出現しています。

ところが、更新前のタグマップはどうだったでしょうか。以下が先週(2008-02-19)のタグマップです。



ご覧いただきますように、「食品」というタグが「おやつ」などの料理やグルメ関係のタグの近くにあったことがわかります。普通は、こちらに配置されるのが自然ですよね。

このように「食品」が大移動したのは、「食品」というタグが付与されているブログ記事で使われる語彙が、グルメ系から時事問題系に変化したことによります。当然、事件後でもグルメ系の語彙も使われているでしょうが、相対的にグルメ系の語彙が減っていたためだと思います。

このように、社会や人々の意識の変化がタグが付与されているブログ記事に変化を及ぼし、その結果がタグマップで観測されるわけです。このように、人々の意識の変化をみるというのも、BLOGRANGER TGの利用方法の一つではないでしょうか。

Ko the tagmap analist
コメント ( 2 ) | Trackback ( 0 )
« 前ページ 次ページ »