はてなブックマークの傾向

はてなからのメールマガジンによると、今年はてなブックマークに登録されたブックマークの数は2,246,095、ブックマークされたエントリの数は1,096,048なんだそうだ。すごい数ですな。
はてなブックマークは私も便利に利用させていただいているわけだが、さてどんな記事がブックマークされてるんでしょうね、というのがちょっと気になった。おそらくはコンピュータ関係の記事が多いんだろうということは予想されるわけだが、印象で語っても仕方がないのでこういうのは調べてみるに限る。まずは人気エントリーで調べることのできるブックマーク数の多い上位1000エントリについて、それぞれどのカテゴリで登録されているかについて調べてみた。結果は以下のとおり。

カテゴリ 記事数
ウェブ 402
コンピュータ 249
一般 159
はてな 67
読書 25
サイエンス 21
音楽 17
ゲーム 13
12
アート 10
マンガ 8
アニメ 6
地理 5
アイドル 2
映画 2
スポーツ 1
動植物 1

予想通り、「コンピュータ」「ウェブ」のカテゴリで全体の65%を占めている。つーか改めてみてみるとこのカテゴリ分けもなんか謎かも。ちなみに第1000位だとブックマーク数は94usersだった。
で、次に気になるのが「どんなタグが使われているのか」という点だったのでこれについても調べてみることに。ある記事において使われたタグの上位10件は人気エントリーのページにも出てくるが、それ以上のことは各エントリの詳細情報ページを見てみないとわからない。正規表現でああでもないこうでもないとさんざんひねくり回した挙げ句、どんなタグをどれだけのユーザーが使っているか、という数字をなんとか拾い上げることができたのでそれを以下に示す。さすがに1000エントリ全部を調べるわけにもいかないので、対象としたのは上位100エントリのみ。

No タグ名称 使用ユーザー数
1 web 747
2 ajax 726
3 google 641
4 css 493
5 javascript 401
6 firefox 398
7 web2.0 388
8 tips 306
9 design 297
10 tool 291
11 blog 291
12 はてな 282
13 windows 277
14 english 270
15 hatena 254
16 英語 250
17 gmail 246
18 便利 226
19 apple 195
20 仕事 173
21 business 171
22 html 167
23 ipod 164
24 lifehacks 161
25 software 160
26 news 157
27 pc 156
28 life 154
29 font 140
30 デザイン 128
31 programming 127
32 ネタ 124
33 ツール 120
34 プレゼン 119
35 ruby 116
36 2ch 113
37 itunes 108
38 まとめ 108
39 読み物 108
40 powerpoint 105
41 study 105
42 seo 103
43 ビジネス 101
44 php 98
45 memo 95
46 webdesign 93
47 lifehack 93
48 社会 91
49 料理 86
50 生活 85

全部で2400種類のタグがあったのだが、とりあえずは上位50種類。なお、ブックマークを公開していないユーザーはこの集計には含まれない。多少の取りこぼしはあると思いますが勘弁してください。
Ajaxが2位ってあたりが今年の傾向を示しているっぽいなあという気がする。コンピュータ関係のタグが多いのは変わらないんだけれども、その内訳のようなものがなんとなく読み取れるあたりがいいですな。そういう意味において、データとしてはこっちの方が面白いかもしれない。これをもとに「こういう記事を書けばブックマークされる!」とかいうSBO(Social Bookmark Organization)な記事が書けるかもしれません。
というかこれだけ調べるのにはてなブックマークのサーバに対して120回のリクエストが必要になった。テスト用も考えると果たして何回リクエストをかけたのやら気が遠くなる。一応ディレイは10秒くらいみたけれども、迷惑なことには変わりあるまい。どうもすいませんでした。
他にも各エントリのタイトルに対してはてなダイアリーキーワード自動リンクAPIをかけたりするのも面白いかもー、とか思ったんだが、それはそれでまた大迷惑になりそうなのでやめました。形態素解析でキーワード抽出ってのも面白そうだけど、時事的な単語が多すぎるからなあ。むう。