关于排行榜指标的探讨


论坛文摘主页

送交者: 插一腿 于 December 06, 2000 10:11:34:

送交者: 插一腿 于 December 04, 2000 23:10:47:

回答: 关于排行榜指标的探讨 由 插一腿 于 December 04, 2000 22:42:12:

讨论一下排行榜的指标问题, 纯属学术性的. 弄不弄排行榜是另外的问题, 俺不讨论
.
排什么行呢? 准确来讲是对论坛的影响程度吧. 衡量影响程度可以有字数阅览次数
跟贴率发贴数等等, 咱先把这几个指标的含义性质和计算办法搞清楚, 然后再看能
提炼出什么有意义的综合性指标. 这些讨论有一个前提, 就是这个统计工作是要由
机器做的, 排除任何人的主观价值判断.

1. 阅读次数, 也就是帖子的点击次数. 这是最重要的一个指标, 它衡量作者的人气
如何. 因为一个帖子被打开之前只能看到它的标题作者和字节数. 有时人们是因为
对标题的好奇去阅读一贴, 因此有人说有的帖子阅读次数多完全是因为起了个勾人
的标题. 但是, 这样的招数用一两遍就不灵了, 如果内容很糟这人以后其它的帖子
别人也不爱读了. 再者, 比较吸引人的帖子的作者大都是大家比较熟悉的网友, 也
没人这么无聊. 如果标题和内容不离谱的
话, 那起个好名字是本事, 也没什么不应该的. 字节数影响不大, 一般太长或太短
的帖子容易被人跳过去. 去了标题引起的偏差, 阅读次数的决定因素就是作者的信
誉, 而作者的信誉是由他/她过去的帖子决定的. 因此, 阅读次数反映了作者的人气
如何.

一个帖子的阅读次数好说, 一周或一月的呢? 俺觉得应该计主贴平均阅读次数. 这
得闹清主贴的定义. 俺定义的主贴是首发贴和500字以上的跟贴. 首发贴不论长短算
在基数内有利于控制灌水. 谁要买件衣服做个菜的也发个贴, 那他的平均阅读次数
就降低. 长的跟贴一般也是有内容的, 作者付出了相当的劳动, 读者也付出了相对
长的阅读时间, 因此也应该给个说法, 计算在内. 短于500字的跟贴多具有对话性质
, 话赶话的, 不一定是要大家读的. 这样的
短贴如果计入基数会降低平均阅读次数, 大家都不爱发言, 坛子的气氛就不活跃.
写帖子的人也愿意看到别人的反映, 写了半天没人夸没人贬的也不带劲, 因此应该
对跟贴持不打击不鼓励的中性态度.

2. 跟贴数. 跟贴数是一个刺激度指标. 看了一个人的帖子觉得有话可说才跟贴. 跟
贴多不一定说明主贴好, 但肯定是有刺激. 比如老贼的跟贴数高, 巴山的跟贴也高
. 这跟贴数老王指出有个话题漂移的问题. 没错, 但俺有一好办法. 一般来讲, 直
接跟贴都是跟主贴有关的, 跟贴的跟贴就未必有关, 再搭梯子往下滚多半就是俩人
逗嘴闲扯蛋了. 所以俺建议一个主贴的跟贴这样来计算: 一级跟贴(直接跟的)有一
个算一个; 二级跟贴(跟贴的跟贴)算二分之一; ...; N 级跟贴算 2 的N 次方分之
一. 这样搭梯子的极限就是2. 其实这是理论性的, 要实际一些就只记两级跟贴就够
了, 往下滚的一概忽略不计. 另外, 有人喜欢自摸儿跟自己的贴, 对此和科技界的
惯例一致, 不予计算.

3. 字数. 字数只说明一个帖子的长短, 俺建议不把它当作一个影响排行的因素. 它
的影响间接的在阅读数和跟贴数中都有所反映了. 另外帖子长未必就好, 不好的长
帖子浪费的时间也多. 同样他也不反映作者付出的劳动. 比如象俺, 写一首一两百
字严肃的诗歌和几千字胡说一道儿同样都要在脑子里绕上几月才能绕出来. 有羽剑
那样主张简单就是美的人, 也有动辄几千败词还要弄出个系列一二三来的人. 写诗
的帖子都比较短, 搅屎的短了就搅不透了. 总之, 字数这一指标无太多有意义的information.


4. 发贴数. 发贴多可能是多作贡献也可能是灌水尿炕, 独立来看没多大价值. 如果
把灌水看成凉水不喜不厌的话, 那主贴对跟贴率和回贴率的影响在上面已经讨论.
如果要对跟贴式灌水有所抑制的话也容易修正, 下边再议.

刚才老猪说阅读数弄不来. 这技术的东西俺就外行了, 只是见有些论坛显示文章的
点击次数. 闹不来那文复的排行就甭操心了, 就在散仙客栈(操, 什么论坛真别扭,
真别扭:P)这试验得了.

上边这一分析可以看出实质性有意义的指标有三个: 主贴数, 阅读数和跟贴数. 主
贴数和另两个指标都有某种乘法关系, 可以交配出有意义的蛋来. 阅读数和跟贴数
是正相关的, 但这个关系不太好描述. 这三个指标各有其独立含义.如果要弄一个综
合排行榜的话, 就得有一个综合指标. 俺推荐一个以阅读数为基础用跟贴数修正的
指数(不妨叫尖兵指数).

尖兵指数 = 跟贴系数 X 主贴阅读数

其中 主贴阅读数 = 主贴数 X 平均阅读数, 也就是所有主贴被阅读次数之和. 这是
人气和活跃程度的综合反映, 鼓励多发好贴.

跟贴系数是什么呢? 我们可以随便取20个活跃网友(如老贼滴多, 粉哥蒙喝, 老王插
腿, 大江如歌)作为种子, 这20个种子的主贴平均跟贴数为K , 如果某人的平均跟贴
数是P, 则 P/K 就是他的跟贴系数. 这20个种子也可以取跟贴率的前20名, 技术上
怎么容易怎么来, 没什么偏差. 举例来说, 比如种子的主贴平均跟贴数是5, 老王的
平均跟贴数是8,老王本周共发了15 个主贴, 这15贴总共被阅读2000次, 那老王的跟
贴系数是1.6, 他的尖兵指数是3200.

主贴数, 主贴平均跟贴数以及主贴阅读数都照俺前边说的去算. 俺这尖兵指标是比
较简单也比较科学的. 如果要抑制灌水, 可以稍加修正. 比如, 如果我们觉得一个
人发一个主贴可以免费发20个水贴(500字以下的跟贴), 超过部份要在计
算主贴阅读数时按1/20 的价格扣除. 也就是:

主贴阅读数 = 主贴平均阅读数 X (主贴数 - 0.05 X 超标水贴)
其中 超标水贴 = Maximum{0,(水贴总数 - 20 X 主贴数)}

就是说, 一个人发一个主贴可以领20张水贴票, 不用过期作废, 超过罚款5分, 每超
过20张被扣一个主贴. 看上去好像复杂点儿, 其实很简单不麻烦.

象老猪说的, 在没有阅读数的时候排什么呢? 俺再推荐一个歪把指数.
没阅读数, 那最重要的就是跟贴数. 歪把指数既反映跟贴数还要向尖兵指数靠拢,
这样简化老朽的工作量并且具有一致性.

歪把指数 = 跟贴系数 X (主贴数 - 0.05 X 超标水贴)
跟贴系数和超标水贴的计算如上述.

建议老朽在窝里试点, 以后可以给别的比较大而成熟稳定的论坛进行评议, 定期发
布尖兵指数和歪把指数, 整的跟股票行情是的,一定能勾来不少好奇的眼睛.




论坛文摘主页