你真的了解大數據?
大數據是這幾年的一項熱門技術。但是該如何理解大數據技術? Google資料科學Seth Stephens-Davidowitz寫了一本書《數據、謊言與真相》(Everybody Lies:Big Data,New Data ,and What the Internet Can Tell Us About Who We Really Are ),裡面指出大數據這個名字本身會給人一種誤解,認為大數據的關鍵在於資料量很大。不過,Seth說,資料集的大小經常被高估。其實所需要的資料集的大小,跟資料本身的效果、資料的真實程度等都有關。
舉個例子,一個火熱的爐子,你只需要碰到一次,就明白,熱爐子很危險,會燙傷你。但是,你可能需要喝幾千杯咖啡,才能確定,咖啡是否會讓你頭疼。原因就在於,熱爐子本身的效果強度很高,因此,只需要一項資料,就能顯現出結果。
Seth在這本書裡引用了大量人們在Google中搜索的資料。Google的資料之所以這麼有價值,其實原因也不完全是因為Google能拿到的龐大的資料量,還因為,人們在自己的電腦上輸入關鍵字、進行搜索時,都很誠實。他們不需要考慮社交壓力、周圍人的眼光等等。
用Seth的話說,“你未必總是需要大數據,才能得出重要見解,你需要正確的資料。”大數據革命跟收集更多的資料無關,而是跟收集正確的資料有關。還是以Google為例。Google不是僅僅憑藉著能夠比其他搜尋引擎搜索到更多的內容,就成為世界上最大的搜尋引擎公司,它憑藉的是,可以搜索到更好的資料。這跟Google的演算法有關。Google的演算法,按照一個網頁被連結的數量來對搜索結果排序。
Seth介紹了大數據的四種力量。這四種力量,也並不都同資料集本身的大小相關。
大數據的第一種力量是,提供了新類型的資料。比如,包括佛洛德在內的思想家,都會從性的角度,來解釋人類的很多行為。但是,這些思想家更多還是在觀念層面進行思考。而現在,大數據時代的研究者,有了一項讓那些過往思想家羡慕不已的資料:人們在互聯網上搜索和觀看色情作品的資料。這些獨特的資料來源,能夠讓研究者進入以前只能靠推理和猜測的領域。
大數據的力量在於,重新想像什麼東西有資格成為資料,提供之前從來沒有收集過的資訊,讓人們可以研究。
作者舉了一個例子。他曾經把2004年至2011年的失業率輸入到Google的資料採擷工具Google Correlate中,結果發現,跟失業最相關的搜索,一個是色情網站,另一個是蜘蛛紙牌。作者猜測,原因也很簡單,因為失業者會有很多閒置時間。所以,他就發現,“利用一些跟消遣相關的搜尋組合,就能追蹤失業率,而且是預測失業率最佳模式的一部分。”
大數據的第二種力量是,提供了誠實的資料。在數字時代出現之前,可想而知,由於考慮到社會壓力等因素,人往往會隱藏起來那些會讓自己難堪的想法。即使面對詢問,也不會坦誠相告。但是,在數字時代,雖然人們仍然會在現實生活中隱藏起一些真實想法,但是在互聯網上,尤其是可以匿名的網站上,人們往往會透露出自己的想法。
知名投資人彼得·蒂爾說過,偉大的企業建立在秘密之上。可能是關於自然的秘密,也可能是關於人的秘密。人的秘密,指的是跟自己有關但自己卻不知道,或者不想讓別人知道的事。
大數據的第三種力量是,讓我們可以把焦點放在人口中的一個很小的子集,去進行研究。這樣做的意義在什麼地方呢?作者通過資料研究發現,是否成為一個球隊的粉絲,跟這個球隊在一個人特定年齡段的表現有關係。如果在一個人對運動最癡迷、最容易喜歡上某項運動的時間段,這個球隊的表現越好,那它獲得這個年齡段的球迷就越多。
而且,美國人政治觀點的形成也類似。很多美國人會在14歲到24歲這個關鍵時期,形成個人的政治偏好。其中,形成政治觀點最重要的年紀是18歲。受歡迎的共和黨總統或不受歡迎的民主黨總統,將影響很多年輕人成為共和黨人。反之亦然。“大數據允許我們有意義地放大檢視資料集的細部,獲取新的洞察。”
第四種力量是,允許研究者進行因果關係實驗。大數據可以允許研究者進行快速而且可控制的因果關係實驗,而不僅僅是相關性。
這種測試在很多互聯網公司被稱作是A/B測試。臉書(Facebook)每天能進行上千次A/B測試。所謂的A/B測試,指的是,在同一個時間維度,分別讓相似的兩組訪客隨機訪問這些版本,收集資料,來評估出使用者更喜歡的版本。比如,兩個標題,哪一個點擊量更高;放哪種類型的照片,更能讓用戶喜歡等等。