zoom_big_66010.jpg

 

 

 

大數據思辨:如果相關不意味著因果,那麼意味著什麼?

原文網址:https://kknews.cc/tech/k3vaqb.html

 

 

【導語】:相關性和因果性之間的聯繫,從統計學教材到大數據著作,都有著廣泛的探討,甚至爭議不斷。邁爾舍恩伯格在《大數據時代》里說,「要相關,不要因果」,在大數據時代,有相關,就夠了。而周濤則在《為數據而生》一書中說,放棄對因果關係的追尋,就是人類的自我墮落,相關性分析是尋找因果關係的利器。

 

想不想聽聽第三方的觀點?下面文字為BuzzFeed首席數據科學家Adam Kelleher觀點的部分編譯,感興趣的讀者,請閱讀原文。
 

 

 

(中略…)

 

 

圖3:一個未觀察到的原因

自然,我們很希望這個背後的原因範圍,能縮小到圖2所示那麼精確。

 

但現實是殘酷的,很多時候,我們所認知的世界是懵懂的。

 

但是,即使我們沒有得到一個如圖2所示的精確認知,即使丟失了一些連結和變量,在很多時候,這樣的世界已經「足夠好」了。

但科學的進步,就是對「足夠好」的不滿足(Good enough for Science is not good enough)。

 

在物理學領域,這種類型的科學進步,是有例可循的。

 

比如說,牛頓的萬有引力理論,就是一個「足夠好」的解釋世界的圖譜。因為它既可以解釋大部分星辰的運轉,也足以讓人類登上月球。

 

但是,牛頓定律對「水星進動」(Precession of Mercury)就解釋得「不夠好」(因為水星近日點進動值與觀測值存在分歧)。

 

對於精確GPS系統而言,牛頓定律也是不夠用的(因為高精度的GPS測量,除了要考慮GPS系統本身的精度,還應該考慮與地球整體運動有關的相對論效應)。

 

後來,愛因斯坦並沒有滿足於牛頓「足夠好」的知識圖譜,於1916年發表了著名的廣義相對論,提供了一個更為完整的認知圖,能更好的解釋這個世界。

 

於是,「水星進動」得以更好的解釋,GPS系統可以有更好的精度。

 

 

 

 

未完的結論

從上面的討論可知,相關性的確並不意味因果性,但卻意味著,在認知圖譜的上游,可能蘊含著某些非常見的共因。

 

對這些非常見共因的探尋,能拓展我們的認知圖譜。

 

圖2所示的世界,其實是一個比擬。

 

由於在我們的世界裡,「災難(黑天鵝事件)」發生的次數是極少的。

 

所以,我們必須注重收集越來越多的數據,以捕捉這些罕見的結果,一旦我們能夠形成對這些罕見結果的可解釋性(因果關係),這就會拓展我們的知識邊界,提升我們對世界的理解水平。

 

我們知道,在小樣本集合里,很多處於長尾部分的案例,由於發生機率極低,極有可能無法觀察到。大數據很重要的一個優勢,就是在長尾應用中,發現稀疏而珍貴的價值——對某些罕見結果的可解釋性(如某些低頻癌症的病因等),這是極其有用的。

 

 

 

 

 

譯者介紹:張玉宏,著有《品味大數據》一書

更多深度技術內容,請關注云棲社區微信公眾號:yunqiinsight。



原文網址:https://kknews.cc/tech/k3vaqb.html

arrow
arrow
    全站熱搜

    Luna A 發表在 痞客邦 留言(0) 人氣()