-網站數據分析:難以解釋的數據異常

網站數據分析:難以解釋的數據異常

seo.zoapcon.com

  在分析數據的時候,總有那些一些數據異常無法找到適當的理由進行合理解釋,也許可以換個角度來看待這些異常。為什麼明明數據發生較大的起伏波動,我們絞盡腦汁還是無法找到合理的原因,這些到底是怎麼樣的異常,是不是存在一些共性,或者這些異常是不是我們平常所說的異常,抑或是應該歸到其他類別,不妨先叫它們”難以解釋的異常”。

  近段時間在讀《思考,快與慢》這本書,作者卡尼曼的觀點似乎可以給我們一些答案。卡尼曼是心理學和決策學方面的大師,他告訴我們如何避開大腦思考的誤區,從而更加理性地進行認知和決策。這裡引述書中提及的與上面”難以解釋的異常”這個問題相關的兩個觀點:

  回歸均值效應:事物會經歷好壞的隨機波動,但最終會回歸到平均水平。

  用因果關系解釋隨機事件:人們總是試圖為一些變化尋找可以解釋的原因。

  迪馬特奧和貝尼特斯

  對於回歸均值效應(Mean reversion),卡尼曼舉瞭一些與體育相關的例子,確實這個現象在體育競技中較為常見:高爾夫球手為什麼第二天無法打出前一天的好成績,球員為什麼第二個賽季無法復制前一個賽季的輝煌….這讓我聯想到瞭近期切爾西的換帥事件。

  其實迪馬特奧和貝尼特斯之間存在一些有趣的共同點:1) 都是歐冠的冠軍教頭,2) 能力都沒有被完全認可。如果說迪馬特奧是沒有足夠的時間來證明自己的執教能力情有可原的話,那麼貝尼特斯顯然是自己的選擇造成瞭外界對其能力的質疑。

  

  迪馬特奧在上賽季中後段從助理教練接手切爾西,並以看守主教練的身份一路過關斬將,最終奪取歐冠冠軍,成功帶回球隊歷史上第一座大耳朵杯足夠讓其能在賽季末被扶正,但因為缺乏執教經驗始終無法讓挑剔的老板對其有足夠的信任,於是當球迷和俱樂部還沉浸在上賽季歐冠的榮耀光環下,而球隊的表現卻無法延續”應有”的輝煌時,迪馬特奧下課的命運是註定的。在競爭如此激烈的英超聯賽,切爾西無法擺脫回歸效應,如果說上個賽季切爾西在諸多有利因素的共同作用,再加上一些運氣成分的基礎上成功加冕歐冠的話,那麼這個賽季這些有利因素不再集中地作用於他們,而他們的運氣也似乎”用完瞭”,成績回歸之前的平均水平實屬正常現象,而在昔日光環下的球迷和俱樂部顯然認為這是”異常事件”,於是迪馬特奧成為瞭回歸效應的受害者。

  其實這類事件在足球界屢見不鮮,世界杯的98法國,02五星巴西,06意大利都難逃回歸效應,奪冠之後成績下滑,而很多教練也在奪冠之後紛紛辭職,因為他們也明白再續輝煌(擺脫回歸效應)是如此之難,斯科拉裡、裡皮等都做出瞭明智的選擇,而這些冠軍球隊的替任教練又往往是命運最為坎坷的,畢竟能像博斯克這樣讓西班牙不斷延續輝煌的教練真的不多,而貝尼特斯恰恰當瞭回悲催的替任者。

  2010年貝尼特斯接替穆裡尼奧成為三冠王國際米蘭的主教練,三冠王的光環太過耀眼,而陣容老化加引援不利,註定讓國米走上回歸效應的道路,於是賽季不到半程,貝帥即被解雇。其實貝尼特斯之前執教生涯的戰績並不是太差,成名於瘋狂的”伊斯坦佈爾之夜”,但也正是因為這傳奇一戰成瞭一座無法逾越的豐碑,即使之後幫助利物浦奪得諸多賽事的冠亞軍,也無法讓俱樂部和球迷真正的滿意,而貝帥的決策失誤在於其沒有在任何一個輝煌或幾近輝煌(07年雖然被米蘭復仇雅典,但至少也是個歐冠亞軍)的時刻選擇退出,直到最後利物浦戰績實在看不下去瞭才以失敗者的身份離開。貝帥真的應該向老辣的銀狐裡皮或者狡猾的穆裡尼奧學習下什麼叫做功成身退。

  而這次,貝帥又一次選擇瞭歐冠冠軍光環下的切爾西,盡管這個光環已漸漸褪去,我們也隻能祝他好運瞭。

  倒塌的橋梁與突然安靜的教室

  

  共振(Resonance)催生瞭宇宙大爆炸,形成瞭星辰日月和世間萬物,共振現象是自然界最普遍的現象之一。一群士兵騎馬通過法國昂熱市的某座橋時,共振現象導致瞭橋梁的倒塌,這個例子被引入初中物理教科書,從而成為瞭我們認識共振原理的啟蒙記憶。但是什麼原因引發瞭共振,進而發生橋梁倒塌這類異常事件,正常情況下同樣一群士兵同樣行軍通過同樣的橋,可能幾萬次中才會出現一次橋梁倒塌,士兵是普通的士兵,橋是正常的橋,產生共振完全是一個隨機事件,但正是因為這類事件概率太小,所以人們總是試圖從士兵或者橋的身上找原因(但是有時候確實是因為橋存在問題 ;- ) )。

  然後是一個在知乎上看到的問題:為什麼原來大傢都在討論,聲音嘈雜的教室會突然安靜下來?這個也許大傢都遇到過,也是一個類似的小概率事件,教室裡每個人都在斷斷續續地說話,正常情況下聲音的大小總是保持在一個水平波動,但可能突然有一個時刻同時說話的人數減少瞭,聲音也隨機地波動到瞭一個最低點,這個時候大傢就會認為是不是發生瞭什麼事情,老師來瞭?於是紛紛不說話,教室突然鴉雀無聲,一片寂靜。大傢都感覺到瞭教室聲音的”異常”,而試圖為這個異常尋找可能的原因。

  什麼造成瞭這些”異常”

  首先來看回歸均值效應,一般表現為事物在某段時間表現得非常好,之後回歸到正常水平的一個過程。這個按理來說是一個正常的過程,因為事物在諸多因素的共同影響下總有一些隨機的波動,關鍵在於人們總是希望好的狀態能夠延續,而當事物從一個極好的狀態出現下滑時,因為落差較大,所以很容易把回歸均值之後的狀態當做一種”異常”。如下圖:

  

  A段的曲線即使有上下波動,但一般不會被認為有異常,但C段曲線很容易被誤認為是異常,因為我們很容易將C段與B段進行比較,而不是A段的均值水平(綠線所示,C段與A段均值差異並不大)。因為這裡給出瞭完整的曲線變化趨勢,所以犯這種錯誤的可能性會降低,但當我們比較短時間內的數據變化,或者簡單看數據同環比的時候,就很容易誤把回歸均值當做一種異常。所以分析數據要結合長期趨勢,當事物狀態未發生質變而數據明顯上升一個臺階的情況下,不要認為好的數據表現總能夠持續,因為好的數據表現也隻是一個正常的隨機波動引起的。

  解釋瞭回歸均值效應,還需要搞清楚的是雖然事物大部分時間都有小幅的隨機波動,但偶然也會出現較大的波動,即極好或者極差的狀態,正如上圖的B段狀態,我們如何認定這個狀態也是隨機的,而不是異常呢,不能因為難以解釋而不把過大的數據波動當做一種異常來看?

  這個問題還是可以從物理學的角度開始解釋,先看下波的疊加原理(Superposition Principle):

  

  左圖的下面2個波在疊加之後合成瞭更大的振幅,而右圖的下面2個波相互幹涉,合成後振幅消減為零。引申到數據變化的情境下,一般一個指標會受到多個因素的影響,比如網站的訪問量會受多個渠道數據波動的影響,搜索引擎、外部鏈接、社交媒介、付費廣告等這些外部渠道帶來的流量總是在變化的,如下圖:

  

  當某個渠道的流量異常的時候,如A線所示,或者由於外界因素的影響,如春節或節假日所有渠道的流量都可能普遍下降,如B線所示,這些都可能導致總體訪問量的異常,這些異常是可以解釋的。C線中每個渠道的數據都未出現明顯異常,但由於多個渠道的流量因為隨機波動碰巧同時都到瞭一個較低的點,這個時候總體訪問量也會出現明顯低於正常水平的情況,於是就出現瞭”難以解釋的異常”。

  所以,這些”難以解釋的異常”之謎可以揭曉瞭,當很多因素同時作用於某個指標的時候,即使所有的影響因素都沒有出現顯著的異常,指標數據仍然可能表現異常,雖然這個概率非常低,但確實會發生,這是因為多個因素共同作用下的疊加效應導致的,如果通過細分指標的影響因素沒有發現明顯的異常,那麼不要試圖為這個”難以解釋的異常”尋找看上去可以解釋的原因。

   本文采用 BY-NC-SA 協議,轉載請註明來源:網站數據分析 《難以解釋的數據異常》

原文:

Tags:網頁設計提供seo, web design by zoapcon
SEO,
SEO,
MTR advertising,
Wechat Marketing,
Wechat Promotion,
網上商店,
網上電台,
代用碳粉,
團購網,
interior design,
Baby product,
diamond

Leave a Reply

Your email address will not be published. Required fields are marked *