はてなブックマークの傾向(2)

前回の記事ではカテゴリの分布とタグ毎の仕様ユーザー数を出してみたのだが、データ収集に当たっては考えなしに他にも色々データを取っていたりする。なのでまだ同じネタで引っ張れるかなーなどとよこしまなことを考えてみた。今回は前回からもう一歩踏み込んで、タグとカテゴリの関係についてのデータを紹介してみることにしたい。
なお、データには前回使用と同じく12月20日時点におけるものを使用している。タグに関しては前回も書いたとおり、エントリ毎の詳細ページを見てみなければわからない。詳細データについては上位100エントリ分しか取得していないので、今回の対象はそこまでということでご了承いただきたい。
まずは基本的なデータから。上位100エントリにおけるカテゴリの分布は以下の通り。

カテゴリ 件数
ウェブ 42
コンピュータ 25
一般 20
はてな 8
2
ゲーム 1
サイエンス 1
マンガ 1

IT系が強いのはここですでに明らかになっている。ただし1位は一般カテゴリの「英文メールを書くときに便利な表現集」だったりするのだけれども。
今回はタグとカテゴリの関係について、ということなのだが、標本数がが少ないのもアレなのでウェブ、コンピュータ、一般のカテゴリのみを対象とした。それぞれのカテゴリにおいてよく使われているタグ上位20種類は以下の通り。

  ウェブ   コンピュータ   一般  
  タグ名 使用回数 タグ名 使用回数 タグ名 使用回数
1 web 1261 ajax 830 lifehacks 204
2 google 1036 javascript 449 仕事 198
3 css 813 windows 381 tips 173
4 ajax 681 firefox 289 business 146
5 web2.0 535 tips 287 english 135
6 design 458 web 227 プレゼン 132
7 tool 316 apple 221 life 127
8 gmail 313 pc 210 英語 120
9 english 292 tool 193 便利 108
10 blog 290 ipod 172 lifehack 98
11 便利 250 font 155 仕事術 90
12 英語 248 software 155 ビジネス 89
13 firefox 224 programming 153 work 86
14 javascript 215 ruby 122 presentation 81
15 tips 214 design 108 生活 80
16 html 205 itunes 108 社会 80
17 デザイン 188 プログラミング 91 文章 77
18 webdesign 148 powerpoint 85 fashion 74
19 webデザイン 122 rails 85 資料 72
20 seo 107 便利 85 study 71

すこし(かなり?)見づらいかもしれない。ともあれウェブとコンピュータにおいては比較的似たような傾向のタグが使われているように見える。もちろんウェブカテゴリで[css]のように関連する技術用語が多いのは確かなんだが、いずれのカテゴリにおいても[Ajax]が多かったりもするので、それほどはっきりとした差はないと言えるのではないだろうか。コンピュータカテゴリには[Web2.0]がないですねー。[Web]に吸収されてるのかな?とか、細かいポイントならいくらでもあるのだけれども。これをサカナに1時間雑談ができれば、あなたも立派なギークです。というかAjaxは注目されすぎていると思う。ねたましい。
それよりも一般カテゴリとの対比の方が違いがはっきりわかって面白いと思う。もっとも一般カテゴリのトップが[lifhacks]ってあたりが、ユーザー層を思いっきり反映していて苦笑いモノな気はするのだが。そういう意味ではたとえ一般カテゴリに分類されていたとしても油断は禁物なのかもしれない。あとでカテゴリごとの一覧を見てみよう。
ちなみに一般カテゴリの10位には[lifehack]なるまぎらわしいタグがランクインしているが、だからといって[lifehacks]と合算したりすると、じゃあ[LifeHack]はどうなんだ、[はてな]と[hAteNa]と[_?_]も同じじゃないか……などと果てしなく作業しなければいけないハメになりそうなのでそのままにしておいた。要はものぐさである。
しかし上位20件だけではわからないものもある。調べてみたところ、ウェブカテゴリだけでも1148種類のタグが使われていたのだ。しかし20種類だとそのうちのわずか1.7%にすぎない。えー?じゃあ全体の分布ってどうなってるんだ?……というのが以下のグラフ。
ウェブカテゴリにおけるタグ使用数の分布グラフ
絵に描いたようなロングテール的グラフである。上位のほんのわずかなタグだけがたくさんの人に使われてるんだなあ。ということは色んな人たちが色んなタグをつかって情報を分類しようとしてるんだねー。あなたの工夫をこらしたタグのつけ方を教えてください……とかなんとか、それだけでまたしばらく話ができそうじゃないですか。情報分類というのはいつまでたっても古くて新しい話題であるようだ。そういえば「『超』整理法」すらまだ読んだことないな。
それはさておき。
グラフの中に変な青い線があるが、これは一体なにか。私のPCが不調だから変な線が入っちゃったんですよー、とかいうわけではない。感光体の傷ついたプリンタじゃないんだから。カンのいい人ならロングテールという単語を出したところでわかってしまったのかもしれないが、トップから使用数を足し上げていき、全体の80%を占めたところで線を引いてみたのである。ウェブカテゴリにおいては第98位のタグまでを足し上げていったところで80%に到達した。98種類といえば全体においてはたったの8.5%にすぎない。それが全体の使用数の80%を占めているのである。残りの20%を1050種類、91.5%のタグが占めている。
ロングテールは本当に長かった、というお話。
というわけでコンピュータ、一般の各カテゴリのグラフについても以下に示しておく。
コンピュータ カテゴリにおけるタグ使用数の分布グラフ
一般 カテゴリにおけるタグ使用数の分布グラフ
コンピュータカテゴリでは823種類のタグが使用され、全体の10.8%にあたる89種類のタグによって全体の使用量の80%を占めている。一般カテゴリでは全887種類のタグが使われ、全体の16.1%である143種類によって全体の使用量の80%を占める。
これらの情報をちょっと整理してみると以下の表のようになる。ついでと言ってはアレだが使用タグの総数も追加しておいた。

  ウェブ コンピュータ 一般
使用タグ総数 13983 8151 5848
タグ種類総数 1148 823 887
80%閾値 98(8.5%) 89(10.8%) 143(16.1%)

と、書いてみると一般カテゴリでは80%に到達するまでにより多くの種類のタグを要していることに気づく。タグ総数ではコンピュータよりも少ないのに、種類では逆に上回ってもいる。まあ一般と言ってもはてなブックマークにおけるカテゴリ分けでは「その他」のような意味合いも強そうだから、タグの種類にもおそらくばらつきがあるのだろう、というのはなんとなく想像できるところである。
せっかくだから高校の時に習った統計の知識でも使ってみますか……というわけで各カテゴリにおいて期待値と標準偏差を算出してみた。

  ウェブ コンピュータ 一般
期待値 12.2 9.9 6.6
標準偏差 66.5 43.6 19.1

明らかに一般カテゴリでは標準偏差の値が低くなっている。つまりバラつきが少ない、ということだ……というのが教科書的な解釈。普段標準偏差なんて使わないんだからそんなこと言われてもわかんないよ!偏差と言われると一番なじみ深いのは高校のときの模試でさんざん苦渋を嘗めさせられた偏差値くらいなもんだ!
じゃあ偏差値を出してみましょう。ネットで探せば算出の公式くらいはすぐに出てきますよ!あとはそれを表計算ソフトに叩き込めば一発だ!今回はデータ整理にグラフ作成に、OpenOffice 2.0が大活躍してるなあ。
ともあれ先に出した上位20件の表に偏差値の項目を追加してみたのが以下の表である。おまけに全体に占める割合も追加してますます読みづらくしてみました。

カテゴリ名 ウェブ     コンピュータ     一般    
  タグ名 使用回数 割合 偏差値 タグ名 使用回数 割合 偏差値 タグ名 使用回数 割合 偏差値
1 web 1261 9.0% 237.9 ajax 830 10.2% 238.3 lifehacks 204 3.5% 153.2
2 google 1036 7.4% 204.0 javascript 449 5.5% 150.8 仕事 198 3.4% 150.1
3 css 813 5.8% 170.5 windows 381 4.7% 135.2 tips 173 3.0% 137.0
4 ajax 681 4.9% 150.6 firefox 289 3.5% 114.1 business 146 2.5% 122.9
5 web2.0 535 3.8% 128.6 tips 287 3.5% 113.6 english 135 2.3% 117.1
6 design 458 3.3% 117.1 web 227 2.8% 99.8 プレゼン 132 2.3% 115.6
7 tool 316 2.3% 95.7 apple 221 2.7% 98.5 life 127 2.2% 113.0
8 gmail 313 2.2% 95.3 pc 210 2.6% 95.9 英語 120 2.1% 109.3
9 english 292 2.1% 92.1 tool 193 2.4% 92.0 便利 108 1.8% 103.0
10 blog 290 2.1% 91.8 ipod 172 2.1% 87.2 lifehack 98 1.7% 97.8
11 便利 250 1.8% 85.8 font 155 1.9% 83.3 仕事術 90 1.5% 93.6
12 英語 248 1.8% 85.5 software 155 1.9% 83.3 ビジネス 89 1.5% 93.1
13 firefox 224 1.6% 81.9 programming 153 1.9% 82.8 work 86 1.5% 91.5
14 javascript 215 1.5% 80.5 ruby 122 1.5% 75.7 presentation 81 1.4% 88.9
15 tips 214 1.5% 80.4 design 108 1.3% 72.5 生活 80 1.4% 88.4
16 html 205 1.5% 79.0 itunes 108 1.3% 72.5 社会 80 1.4% 88.4
17 デザイン 188 1.3% 76.4 プログラミング 91 1.1% 68.6 文章 77 1.3% 86.8
18 webdesign 148 1.1% 70.4 powerpoint 85 1.0% 67.2 fashion 74 1.3% 85.2
19 webデザイン 122 0.9% 66.5 rails 85 1.0% 67.2 資料 72 1.2% 84.2
20 seo 107 0.8% 64.3 便利 85 1.0% 67.2 study 71 1.2% 83.7

偏差値237.9!どんな天才なんだか一度お目にかかってみたいものである。まあもっとも低い偏差値が一般カテゴリにおいて1回しか登場しなかったタグの47.1だから分布のあり方から考えてみればそういうものになるものなのかもしれない。ともあれカテゴリごとの偏差値を比べてみると、一般カテゴリはやや低めになっている。つまり平均(期待値)からの乖離が少ないということになろう。バラつきが少ない、とはつまりそういうことだ。多分。きっと。おそらくは。
というか勢いだけでロクに知りもしない統計の計算なんかしてみたけれども、こんなところで標準偏差なんか算出してなにか意味があるんだろうか?
……まあ面白かったからいいや。というかもうおなかいっぱいだなあ。これだけやればごっそり取得したデータを使ってやった!という気分になれるというものです。Perlもかなり使ったしなあ。あー疲れた。というかお疲れさまでした。
というわけで最後に今回使用させていただいたカテゴリ毎の記事一覧表を置いておく。さあ一般カテゴリの記事はどんな感じになってるかなー。
ウェブ

No タイトル 登録ユーザー数 追加
1 「激しく使える」サイトの自分用まとめ 776 users B!
2 Web 2.0:次世代ソフトウェアのデザインパターンとビジネスモデル(前編) - CNET Japan 580 users B!
3 Web 2.0 時代の TOEIC 900点超え英語勉強法 9ヶ条: blog.bulknews.net 552 users B!
4 WebScan.JP - Webページキャプチャ生成ツール 518 users B!
5 はてな 「激しく使える」サイトを教えて下さい。 493 users B!
6 日本語で読めるAjax関連情報のリンク集 490 users B!
7 Yahoo! JAPAN 468 users B!
8 スタイルシートによる崩れない 2カラム 3カラム・レイアウト 451 users B!
9 Alertbox: 2005年 ウェブ・デザインの間違いトップ10(2005年10月3日) 448 users B!
10 Gmailの使い方! 420 users B!
11 My Life Between Silicon Valley and Japan - Web 2.0時代を生きる英語嫌いの若い人たちへの英語勉強法 417 users B!
12 B3 Annex: グーグル、10の黄金律 390 users B!
13 "デザイン(構造も)がかっこいいブログ@2chブログ板"まとめサイト 388 users B!
14 ブログで自滅する人々(第1回)〜ブログで「祭られる」人々 379 users B!
15 Wikipedia 373 users B!
16 最近のgoogleの動向のまとめ::したらば元社長日記 343 users B!
17 近況 - フォーサイトクラブ・セミナー「ウェブ社会『大変化』への正しい対応・間違った対応」梅田望夫さん講演ログ 340 users B!
18 Web 2.0 時代を生きる英語嫌いの若い人たちへの英語勉強法 - 親切バージョン 337 users B!
19 パソコンテレビ GyaO 326 users B!
20 CSS記述規則「プロパティ別整理法」の提案 315 users B!
21 Google Analytics 314 users B!
22 LFile(エルファイル) : 無料で1GBのファイルを送れる : 5日間保管、ダウンロード10回可能 314 users B!
23 はてな 「激しく使える」サイトを教えて下さい。Part2 312 users B!
24 [N] FirefoxでGmailをストレージとして使う「Gmail File Space」 310 users B!
25 mixi 303 users B!
26 テクノラティ 296 users B!
27 SEOに必須「Googleはいかにしてスパムサイトを弾いているか」——グーグル特許出願文書のわかりやすいまとめ [絵文録ことのは]2005/12/09 292 users B!
28 Blogサイトで見かける変なHTML 289 users B!
29 Webそのものがプラットフォームになる。次世代のWebの在り方「Web 2.0」 - 伊藤直也の「アルファギークのブックマーク」 289 users B!
30 ウェブ社会「本当の大変化」はこれから始まる〜梅田さん記事 286 users B!
31 Gmailで別のメールアドレスからメールを送る方法 285 users B!
32 HTML Color Code Combination Chooser 284 users B!
33 [ajax]quickedit - HTMLリアルタイム編集(ブックマークレット) @ ZEROBASE CAST 281 users B!
34 Google Maps で鈴鹿サーキット試走 275 users B!
35 @IT:Ajaxを使ったamazon検索をPHPで作ろう 275 users B!
36 [[似非デザイン技法]] 275 users B!
37 『Ajax: Web アプリケーション開発の新しいアプローチ』 275 users B!
38 訳GO.com 269 users B!
39 WEBデザインツール:カラーパレットを自動作成するサイト数々:Goodpic 266 users B!
40 Lucky bag::blog: CSS デザインギャラリー 265 users B!
41 Firefox まとめサイト 265 users B!
42 Lucky bag::blog: CSS を作成する際のお約束 261 users B!

コンピュータ:

No タイトル 登録ユーザー数 追加
1 スティーブ・ジョブスのスピーチ(和訳) 619 users B!
2 WinXP消してもいいファイルまとめ 481 users B!
3 audiofan.net : Firefoxをインストールしたらまず行う設定 Ver.1.5 475 users B!
4 PowerPoint テンプレートGET術 464 users B!
5 prototype.js v1.3.1 の使い方 436 users B!
6 本当に無償で使える「VMware Player」 406 users B!
7 あ!早い!と感じるWindows XP 高速化 396 users B!
8 新しいパソコンにiTunesを移動させる方法 371 users B!
9 Ajax を使った手書き文字認 350 users B!
10 antipop - Synergy マジやばい 337 users B!
11 作って理解するAjax (1):IT Pro 336 users B!
12 アルゴリズムの紹介 325 users B!
13 サイト作りに使えそうなサイト 324 users B!
14 Mozilla Firefox Extension @2ch 312 users B!
15 フリーフォント最前線 310 users B!
16 スラッシュドット ジャパン 303 users B!
17 [D]不要なサービスを停止する 299 users B!
18 10分で作るRailsアプリ for Windows - masuidrive 298 users B!
19 Font 298 users B!
20 ITmedia 296 users B!
21 37signals Jason Fried氏の公演 「より少ないシンプルな機能で競争する」:Goodpic 277 users B!
22 @IT:古くて新しいAjaxの真実を見極める 274 users B!
23 ダウンロード - Cow&Scorpion - フリーソフト 274 users B!
24 iPodの開発 267 users B!
25 Collection & Copy - AJAX/JavaScriptライブラリまとめ 260 users B!

一般:

No タイトル 登録ユーザー数 追加
1 英文メールを書くときに便利な表現集 823 users B!
2 東大で学んだ卒論の書き方★論文の書き方 616 users B!
3 「会社で使える文例集」 596 users B!
4 WOOLLY WARMER 2005 ソニープラザ 525 users B!
5 2005年4月25日 福知山線5418M、一両目の「真実」 493 users B!
6 i d e a * i d e a - プレゼンハック 〜プレゼン改善のための10個の小技〜 427 users B!
7 良いプレゼンと悪いプレゼン 402 users B!
8 ブログで読めるlifehacksネタのまとめ 379 users B!
9 通知表などの所見欄用に書きかえたい言葉 333 users B!
10 教えるときの心がけ(結城浩) 327 users B!
11 禁煙ファシズム発動(大事な人に押し付ける) 299 users B!
12 Nikkei225 MarketMap/日経平均225銘柄のマップ 296 users B!
13 世界史講義録 296 users B!
14 創作のためのアイデア発想術 291 users B!
15 Irregular Expression: やはりマスコミがひた隠しにする郵政解散の理由と争点 276 users B!
16 高橋メソッド 275 users B!
17 翔ソフトウェア (Sho's) - オブジェクト指向 - コミュニケーション パターン - 議論パターン 272 users B!
18 韓国は『なぜ』反日か? 270 users B!
19 ストレスの無い仕事フローを目指す (前編):Goodpic 260 users B!
20 小野和俊のブログ:私がシリコンバレーで学んだ5つの教訓 257 users B!

高橋メソッド」があるあたりはらしいっちゃらしいけど、意外に「一般」らしい……かなあ。どうだろう?