twitterのデータクロール

2010年06月29日 | Weblog
twitterのデータを使って色々と模索中です
(というか,まだデータ取ってきても無いけど)



さて,
データをクロールするのに,どうも70回/時間しかリクエスト要求に応えないらしいので,あらかじめそれなりにちゃんと考えて要求しないと欲しいデータとってくるのは大変そう...WWW2009の論文では一ヶ月近くかけて41Millionユーザのデータ全部とってきたらしい.韓国人恐るべし.

で,
同じ事しても,同じことしかできないので,色々アイデア練って想像するも,けっこうやられてたりして難しい.とりあえず取ってきて解析するだけでも,国内研究会なら喜んで聞いてくれる人はいるだろうけど,その先が見えない事には無駄骨になりそうで...


で,
とりあえず,データとってこようとおもうんだけど,
なんでP2Pソフト用のファイル形式なのかなぁ...FTPにしてくれよ...
(BitTorrentなんだけどさ...)
(おかげでデータ取得に結構大変な手続きが必要なわけですよ)

最新の画像もっと見る

7 コメント

コメント日が  古い順  |   新しい順
Unknown (Cafebabe)
2010-06-29 14:52:14
昔は申請すれば,すぐアクセス回数の上限を撤廃してくれたんです.今はもう無理.そういう意味で,研究を始めた時の違いで,かなり大きい差がついています.
私もTwitterの研究もしてますが,競争過多なので,うまい切り口を考えないといけないと思う.
そのうち情報交換しましょう.
返信する
Unknown (tatsushi)
2010-06-29 16:03:35
ちょっと前までは 150回/時間でしたね.

申請すればよかったというのはどっかで見ました.今は無理みたいですね.

JWEINでTwitterのデータみせてちょっと議論しようというもの書こうと思ったんだけど,データの取得がナカナカ難しいですね.ポスターくらいなら書けますが,口頭発表レベルには行きそうにないなぁ.
返信する
Unknown (Cafebabe)
2010-06-29 17:10:43
社内で,早くからデータを収集しているかもしれないところに心当たりがあるけど,聞いてみる?
返信する
Unknown (tatsushi)
2010-06-29 17:55:54
おながいします

って,半島じゃなくて都内ですか?
返信する
Unknown (shr)
2010-06-29 23:13:27
連絡お待ちしています :)
返信する
Unknown (tatsushi)
2010-06-29 23:45:22
>shr
そうそう、メールしようと思っていたんだけど、先にコメントされてしまったw
返信する
Unknown (Cafebabe)
2010-07-07 10:12:10
すまん.忙しくて忘れていた.当事者間で連絡がついたみたいですね.
返信する

コメントを投稿