也许有点标题党,但我希望大家看完能认为我确实用数据说明一些网站并没有(和很多人宣称的那样)拥有“长尾”。
事情的起因是昨天和朋友聊天,说新浪BLOG。他认为新浪BLOG的流量让新浪很头疼,因为太分散了,所以无法象卖首页那样卖掉广告。但我的感觉正相反,新浪怎么赢利与我无关,但新浪BLOG的流量真是非常分散么?为什么我老听到作者们抱怨,推荐到首页就是几十万访问量,一但撤下来就问津寥寥。
如果分散到大量BLOG中,那么我们可以认为这是一个长尾。如果是首页引导+少数名人效应,那就是标准的28法则。
新浪的数据我拿不到,但正好访问到TECHWEB,它的BLOG数据是部分公开的。我昨天取数据的时候BLOG的注册量是2449,应该是从1月来所有注册的BLOGGER。把所有的数据转到EXCEL里,用发贴数做排序。
2449人共发贴15428篇,如果把发贴0篇的人扣除,只剩下1074人,发BLOG数在5篇以上的只有384人。我们取1074的20%,只要头200多人,发贴数就已经是所有BLOG数的85%。完全是二八法则的翻版。
而且,我们把发贴数做出曲线图来:
很显然,符合指数曲线的特征。jiyanjiang和我讨论:
“长尾是描述分布函数特性的通俗解说,尾巴很长是什么意思?简单说就是幂律分布函数:里面的
就是长尾,这个和语言学中的zipf分布是一样的,Google是长尾很容易理解,因为人的自然语言本身就满足zipf分布。
很多人还把长尾和指数分布律混淆:,其实指数律是典型的短尾,只要抓住销量的前N名即可。”
事实上我很容易就找到了一条标准的指数曲线和TECHWEB BLOG的曲线重合。
兰色的是标准指数曲线。
用数学角度解释就是指数曲线是可积的,尾巴看起来很长,但是是收敛的。如果是真长尾的话那应该是一条不可积的幂律分布函数。
用事实解释应该是这样:我们还没有能摆脱资源稀缺的限制,在TECHWEB上发贴前列的那些人也是其他IT网站的常客:数位之墙、北城、蓑烟雨任平生。。还是这点人。而读者也欣赏口味单一,为大众趣味所左右。
这样的情况,形不成长尾。


