うp主視点のニコニコ動画データ分析

・うp主視点でニコ動データを研究中。
・データには調査日などで偏りがあります。参考程度に留めておいてください。

意外と簡単?月間中央値の調査方法

2017年04月24日 | タグ別・月間いろいろ調査

「このブログ、特定のタグばっか調査してるけど、たまには○○タグも調査して欲しいよ」と思ってる方もおられるのではないでしょうか。
実は、ニコニコ超検索サイトを使えば月間中央値はかなり簡単に求めることが出来るので、例をもってやり方を書いてみようと思います。

例1:「動物」タグ・2017年2月うp分の再生数中央値を求めてみる

手順は、
1 月のうp数を調べる
2 中央が何位か、そして何ページか把握する
3 該当ページで確認する
・・・となります。

1 月のうp数を調べる

ニコニコ超検索で、以下の通り入力します。



① 動物 ② タグにチェック ③ 2017/02/01 ④ 2017/02/28 ⑤ 再生数多い順を選択 これらを入力後に、⑥ 検索 を押します。

結果、月間うp数は1,026ということが分かりました。ニコニコ超検索(というかニコニコ運営側の仕組み)での抽出可能の上限は1,600なので、その点は大丈夫そうです。


2 中央が何位か、そして何ページか把握する

まず、中央が何位かはうp数を2で割れば簡単に出ます。

1,026位 ÷ 2 = 513位

513位
を調べれば、中央値が分かることになります。
そして、ニコニコ超検索は1ページに50件データがあるので・・・

513 ÷ 50 = 10 あまり13

つまり10ページではおさまり切らないので、11ページ目を見れば513位が分かります


3 該当ページで確認する

あとは該当ページで確認すればOKですが、ここで上記のページのアドレスを見てみると・・・

http://gokulin.info/search/result.php?q=%E5%8B%95%E7%89%A9&targets=tagsExact&date=on&d_min=2017%2F02%2F01&d_max=2017%2F02%2F28&v_min=&v_max=&c_min=&c_max=&m_min=&m_max=&_sort=-viewCounter&page=1

URLの最後の「page=1」をいじれば、すぐに11ページを見れそうな予感!やってみます



ハイ出ました!513位は再生:194 で、これが「動物」タグ・2017年2月うp分の再生数中央値(4/24現在)ということになりそうです。
(なお、この記事のリンク先を表示しても再生数の増加や動画の削除などにより、結果は変わってくるのでご了承ください。)

もし結果が合っているか確かめたい場合、今度は再生数少ない順にして513位を調べればOKです。きっと同じ数字になるハズです。



513位は再生:193!同じ数値になりませんでした\(^o^)/
これにはちゃんと理由があって、1,026データのど真ん中は513位ではなく、厳密に言えば513位と514位の中間になります。
なので、今回の中央値は 193.5 というのが正解になる訳です。

とまあノイズもありましたが、こんな感じでわりと簡単に月間中央値を出すことが出来ます。もう1例、行ってみましょう。


例2:「けものフレンズ」タグ・2017年2月うp分の再生数中央値を求めてみる

1 月のうp数を調べる



おっと、今度は1,799件ということでサイト上限の1,600を超えてしまいました。今回は、調査できないのか?
答えは、「余裕で調査できる」になります。



図にしたらこんな感じですが、要するに「全データの抽出は出来ないけど、再生数順の並び替えは出来ているので、中央値の900位が分かればOK」ということです。
さらに言えば、多い順・少ない順の1,600位までが分かることになるので、3,200データまでは中央値の調査が可能ということになります。

あとは、例1の動物と同様に調査するだけです。


2 中央が何位か、そして何ページか把握する

1,799 ÷ 2 = 899.5 → 中央値は900位
900 ÷ 50 = 18 → 18ページを見ればOK


3 該当ページで確認する

・再生数多い順



・再生数少ない順



今度はどちらも同じ数値になりました!再生:2,098が、「けものフレンズ」タグ・2017年2月うp分の再生数中央値(4/24現在)ということになります。

いかがでしたでしょうか。もちろん、同じ手順でコメントとマイリストの中央値を求めることも出来ます
また期間も月間に限らず、3,200件以下ならどんな広い期間の調査も可能です。

問題は、調査対象データが3,200件を超えた場合
この場合の解決法は・・・

1 例えば月間5,000うpなら、1~18日など3,200件の範囲で調べる
2 1~15日、16~31日など複数調べ、その中央値同士のさらに中央値を求める(1~15日が 203 、16~31日が 207 なら 205 と言う風に、ただしこれは推計値)
3 いっそ全データを収集してデータベースを作り、それから中央値を調べる(データベースの作り方はこちら

・・・などになると思います。
ゲームタグみたいな月間うp数が50,000を超えるお化けタグは正直お手上げなところがありますが、
それ以外のほとんどのタグはわりと短時間で中央値を調べることが出来るはずなので、もし興味を持たれたら、ぜひ一度試されてみてはいかがでしょうか。
それでニコニコ統計の楽しさを知って頂ければ、統計員として非常に嬉しく思う次第です。