關于排行榜指標的探討


論壇文摘主頁

送交者: 插一腿 于 December 06, 2000 10:11:34:

送交者: 插一腿 于 December 04, 2000 23:10:47:

回答: 關于排行榜指標的探討 由 插一腿 于 December 04, 2000 22:42:12:

討論一下排行榜的指標問題, 純屬學術性的. 弄不弄排行榜是另外的問題, 俺不討論
.
排什么行呢? 准确來講是對論壇的影響程度吧. 衡量影響程度可以有字數閱覽次數
跟貼率發貼數等等, 咱先把這几個指標的含義性質和計算辦法搞清楚, 然后再看能
提煉出什么有意義的綜合性指標. 這些討論有一個前提, 就是這個統計工作是要由
机器做的, 排除任何人的主觀价值判斷.

1. 閱讀次數, 也就是帖子的點擊次數. 這是最重要的一個指標, 它衡量作者的人气
如何. 因為一個帖子被打幵之前衹能看到它的標題作者和字節數. 有時人們是因為
對標題的好奇去閱讀一貼, 因此有人說有的帖子閱讀次數多完全是因為起了個勾人
的標題. 但是, 這樣的招數用一兩遍就不靈了, 如果內容很糟這人以后其它的帖子
別人也不愛讀了. 再者, 比較吸引人的帖子的作者大都是大家比較熟悉的網友, 也
沒人這么無聊. 如果標題和內容不离譜的
話, 那起個好名字是本事, 也沒什么不應該的. 字節數影響不大, 一般太長或太短
的帖子容易被人跳過去. 去了標題引起的偏差, 閱讀次數的決定因素就是作者的信
譽, 而作者的信譽是由他/她過去的帖子決定的. 因此, 閱讀次數反映了作者的人气
如何.

一個帖子的閱讀次數好說, 一周或一月的呢? 俺覺得應該計主貼平均閱讀次數. 這
得鬧清主貼的定義. 俺定義的主貼是首發貼和500字以上的跟貼. 首發貼不論長短算
在基數內有利于控制灌水. 誰要買件衣服做個菜的也發個貼, 那他的平均閱讀次數
就降低. 長的跟貼一般也是有內容的, 作者付出了相當的勞動, 讀者也付出了相對
長的閱讀時間, 因此也應該給個說法, 計算在內. 短于500字的跟貼多具有對話性質
, 話赶話的, 不一定是要大家讀的. 這樣的
短貼如果計入基數會降低平均閱讀次數, 大家都不愛發言, 壇子的气氛就不活躍.
寫帖子的人也愿意看到別人的反映, 寫了半天沒人夸沒人貶的也不帶勁, 因此應該
對跟貼持不打擊不鼓勵的中性態度.

2. 跟貼數. 跟貼數是一個刺激度指標. 看了一個人的帖子覺得有話可說才跟貼. 跟
貼多不一定說明主貼好, 但肯定是有刺激. 比如老賊的跟貼數高, 巴山的跟貼也高
. 這跟貼數老王指出有個話題漂移的問題. 沒錯, 但俺有一好辦法. 一般來講, 直
接跟貼都是跟主貼有關的, 跟貼的跟貼就未必有關, 再搭梯子往下滾多半就是倆人
逗嘴閒扯蛋了. 所以俺建議一個主貼的跟貼這樣來計算: 一級跟貼(直接跟的)有一
個算一個; 二級跟貼(跟貼的跟貼)算二分之一; ...; N 級跟貼算 2 的N 次方分之
一. 這樣搭梯子的极限就是2. 其實這是理論性的, 要實際一些就衹記兩級跟貼就夠
了, 往下滾的一概忽略不計. 另外, 有人喜歡自摸兒跟自己的貼, 對此和科技界的
慣例一致, 不予計算.

3. 字數. 字數衹說明一個帖子的長短, 俺建議不把它當作一個影響排行的因素. 它
的影響間接的在閱讀數和跟貼數中都有所反映了. 另外帖子長未必就好, 不好的長
帖子浪費的時間也多. 同樣他也不反映作者付出的勞動. 比如象俺, 寫一首一兩百
字嚴肅的詩歌和几千字胡說一道兒同樣都要在腦子里繞上几月才能繞出來. 有羽劍
那樣主張簡單就是美的人, 也有動輒几千敗詞還要弄出個系列一二三來的人. 寫詩
的帖子都比較短, 攪屎的短了就攪不透了. 總之, 字數這一指標無太多有意義的information.


4. 發貼數. 發貼多可能是多作貢獻也可能是灌水尿炕, 獨立來看沒多大价值. 如果
把灌水看成涼水不喜不厭的話, 那主貼對跟貼率和回貼率的影響在上面已經討論.
如果要對跟貼式灌水有所抑制的話也容易修正, 下邊再議.

剛才老豬說閱讀數弄不來. 這技術的東西俺就外行了, 衹是見有些論壇顯示文章的
點擊次數. 鬧不來那文复的排行就甭操心了, 就在散仙客棧(操, 什么論壇真別扭,
真別扭:P)這試驗得了.

上邊這一分析可以看出實質性有意義的指標有三個: 主貼數, 閱讀數和跟貼數. 主
貼數和另兩個指標都有某种乘法關系, 可以交配出有意義的蛋來. 閱讀數和跟貼數
是正相關的, 但這個關系不太好描述. 這三個指標各有其獨立含義.如果要弄一個綜
合排行榜的話, 就得有一個綜合指標. 俺推荐一個以閱讀數為基礎用跟貼數修正的
指數(不妨叫尖兵指數).

尖兵指數 = 跟貼系數 X 主貼閱讀數

其中 主貼閱讀數 = 主貼數 X 平均閱讀數, 也就是所有主貼被閱讀次數之和. 這是
人气和活躍程度的綜合反映, 鼓勵多發好貼.

跟貼系數是什么呢? 我們可以隨便取20個活躍網友(如老賊滴多, 粉哥蒙喝, 老王插
腿, 大江如歌)作為种子, 這20個种子的主貼平均跟貼數為K , 如果某人的平均跟貼
數是P, 則 P/K 就是他的跟貼系數. 這20個种子也可以取跟貼率的前20名, 技術上
怎么容易怎么來, 沒什么偏差. 舉例來說, 比如种子的主貼平均跟貼數是5, 老王的
平均跟貼數是8,老王本周共發了15 個主貼, 這15貼總共被閱讀2000次, 那老王的跟
貼系數是1.6, 他的尖兵指數是3200.

主貼數, 主貼平均跟貼數以及主貼閱讀數都照俺前邊說的去算. 俺這尖兵指標是比
較簡單也比較科學的. 如果要抑制灌水, 可以稍加修正. 比如, 如果我們覺得一個
人發一個主貼可以免費發20個水貼(500字以下的跟貼), 超過部份要在計
算主貼閱讀數時按1/20 的价格扣除. 也就是:

主貼閱讀數 = 主貼平均閱讀數 X (主貼數 - 0.05 X 超標水貼)
其中 超標水貼 = Maximum{0,(水貼總數 - 20 X 主貼數)}

就是說, 一個人發一個主貼可以領20張水貼票, 不用過期作廢, 超過罰款5分, 每超
過20張被扣一個主貼. 看上去好像复雜點兒, 其實很簡單不麻煩.

象老豬說的, 在沒有閱讀數的時候排什么呢? 俺再推荐一個歪把指數.
沒閱讀數, 那最重要的就是跟貼數. 歪把指數既反映跟貼數還要向尖兵指數靠攏,
這樣簡化老朽的工作量并且具有一致性.

歪把指數 = 跟貼系數 X (主貼數 - 0.05 X 超標水貼)
跟貼系數和超標水貼的計算如上述.

建議老朽在窩里試點, 以后可以給別的比較大而成熟穩定的論壇進行評議, 定期發
布尖兵指數和歪把指數, 整的跟股票行情是的,一定能勾來不少好奇的眼睛.




論壇文摘主頁