當前位置: 首頁(yè) > 原創(chuàng )

相關(guān)熱門(mén)公開(kāi)課程

互聯(lián)網(wǎng)思維培訓：用最少的數據獲得最多的信息

時(shí)間：2015-01-06

最近，私人企業(yè)和個(gè)人才擁有了大規模手機和分類(lèi)數據的能力。在過(guò)去，這是只有教會(huì )或者政府才能做到的。當然，在很多國家，教會(huì )和政府是等同的。有記載的、最早的計數發(fā)生發(fā)生在公元前8000年的，當時(shí)蘇美爾的商人用黏土珠來(lái)記錄出售的商品。大規模的計數則是政府的事情。數千年來(lái)，政府都試圖通過(guò)手機信息來(lái)管理國民。

以人口普查為例。據說(shuō)古代埃及曾進(jìn)行過(guò)人口普查，《舊約》和《新約》中對此都有所提及。那次由奧古斯都愷撒主導實(shí)施的人口普查，提出了“每個(gè)人都必須納稅“，這使得約瑟夫和瑪麗搬到了耶穌的出生地伯利恒。1086年的《末日審判書(shū)》（The Doomsday Book）對當時(shí)英國的人口、土地和財產(chǎn)做了一個(gè)前所未有的全面記錄?；始椅瘑T穿越整個(gè)國家對每個(gè)人、每件事都做了記載，后來(lái)這本書(shū)《圣經(jīng)》中《末日審判書(shū)》命名，因為每個(gè)人的生活都被赤裸裸地記錄下來(lái)的過(guò)程就像接受”最后的審判“一樣。

然后，人口普查是一項耗資且費時(shí)的事情。國王威廉一世（King William I）在他發(fā)起的《末日審判書(shū)》完成之錢(qián)就去世了。但是，除非放棄收集信息，否則在當時(shí)沒(méi)有其它辦法。盡管如此，當時(shí)收集的信息也只是一個(gè)大概情況，實(shí)施人口普查的人也知道他們不可能準去記錄下每個(gè)人的信息。實(shí)際上”人口普查”這個(gè)詞來(lái)源于拉丁語(yǔ)“censere“，意思就是推測，估算。
三百多年輕，一個(gè)名叫約翰•格朗特的英國縫紉用品商提出一個(gè)很有新意的方法。他采用了一個(gè)新方法推算出鼠疫時(shí)期倫敦的人口數，這個(gè)方法就是后來(lái)的統計學(xué)。這個(gè)方法不需要一個(gè)人一個(gè)人地計算。雖然這個(gè)方法比較粗糙，但采用這個(gè)方法，人們可以利用少量有用的樣本信息來(lái)獲取人口的整體情況。

雖然后來(lái)證實(shí)他能夠得出正確的數據僅僅是因為運氣好，但在當時(shí)他的方法大受歡迎。樣本分析法一直都有較大的隆冬，因此無(wú)論是進(jìn)行人口普查還是其他大數據類(lèi)的任務(wù)，人們還是一直使用一一輕點(diǎn)這種“野蠻“的方法。

考慮到人口普查的復雜性以及耗時(shí)耗費的特點(diǎn)，政府極少進(jìn)行普查。古羅馬在擁有數十萬(wàn)人口的時(shí)候每5年普查一次。美國憲法規定每10年進(jìn)行一次人口普查，而隨著(zhù)國家人口越來(lái)越多，只能以百萬(wàn)計算。但是到19世紀為之，及時(shí)這樣不頻繁的人口普查依然很困難，因為數據變化的速度超過(guò)了人扣普查局統計分析的能力。

這就是問(wèn)題所在，是利用所有的數據還是僅僅采用一部分呢？最明智的自然是得到有關(guān)被分析事物的所有數據，但是當數量無(wú)比龐大的時(shí)，這有不太現實(shí)。那如何選擇樣本呢？有人提出有目的地選擇最具代表性的樣本是最恰當的方法。1934年，波蘭統計學(xué)家耶日•奈曼指出，這只會(huì )導致更多更大的漏洞。事實(shí)證明，問(wèn)題的關(guān)鍵是選擇樣本時(shí)的隨機性。

統計學(xué)家們證明：采樣分析的精確性隨著(zhù)采樣隨機性的增加而大幅度提高，但與樣本數量的增加關(guān)系不大。雖然聽(tīng)起來(lái)很不可思議，但事實(shí)上，一個(gè)對1100人進(jìn)行的關(guān)于“是否“問(wèn)題的抽樣調查有著(zhù)很高的精確性，精確度甚至超過(guò)了對所有人進(jìn)行調查時(shí)的97%。者是真的，不管是調查10萬(wàn)人還是1億人，20次調查理有19次都能猜對。為什么會(huì )這樣？原因很復雜，但是有一個(gè)比較簡(jiǎn)單的解釋就是，當樣本數量達到了某個(gè)值之后，我們從新個(gè)體身上得到的信息會(huì )越來(lái)越少，就如同經(jīng)濟學(xué)中的編輯效應遞減一樣。

認為樣本選擇的隨機性比樣本數量更重要，這種觀(guān)點(diǎn)是非常有見(jiàn)地的。這種觀(guān)點(diǎn)為我們開(kāi)辟了一條手機信息的新道路。通過(guò)收集隨機樣本，我們可以用較少的花費做出高精度的推斷。因此，政府每年都可以用隨機采樣的方法進(jìn)行小規模的人口普查，而不是只能沒(méi)十年進(jìn)行一次。事實(shí)上，政府也這樣做了。例如，出了十年一次的人口大普查，美國人口普查局每年都會(huì )隨機采樣的方法對經(jīng)濟和人口進(jìn)行200多次小規模的調查。當收集和分析數據都不容易時(shí)，隨機采樣就成為對信息采集困難的辦法。

很快，隨機采樣就不僅應用于公共部門(mén)和人口普查了。在商業(yè)領(lǐng)域，隨機采樣被用來(lái)監管商品質(zhì)量。這樣使得監管商品質(zhì)量和提升商品品質(zhì)變得更容易，花費也更少。以前，全面的質(zhì)量監管要求對生產(chǎn)出來(lái)的每個(gè)產(chǎn)品進(jìn)行檢查，而現在只需要從一批商品中隨機抽取部分樣品進(jìn)行檢查就可以了。本質(zhì)上來(lái)說(shuō)，隨機采樣讓大數據問(wèn)題變得更加切實(shí)可行。同理，它將客戶(hù)調查引進(jìn)了零售行業(yè)，講焦點(diǎn)討論引進(jìn)了政治界，也將許人文問(wèn)題變成了社會(huì )科學(xué)問(wèn)題。

隨機采樣取得了巨大的成功，成為現代社會(huì )、?，F代測量領(lǐng)域的主心骨。但這只是一條捷徑，是在不可手機和分析全部數據的情況下的選擇，它本身存在許多固有的缺陷。它陳宮依賴(lài)于采樣的絕對隨機性，但是實(shí)現采樣的隨機性非常困難。一旦采樣過(guò)程中存在任何偏見(jiàn)，分析結果就會(huì )相去甚遠。最近，以固定電話(huà)用戶(hù)為基礎進(jìn)行投票民調就面臨了這樣的問(wèn)題，采樣缺乏隨機性，因為沒(méi)有考慮到只使用移動(dòng)電話(huà)的用戶(hù)——這些用戶(hù)一般更年輕更熱愛(ài)自由。沒(méi)有考慮到這些用戶(hù)，自然就得不到正確的預測。2008年在奧巴馬與麥凱恩之間進(jìn)行的美國總統大選中，蓋洛普咨詢(xún)公司、皮皮尤研究中心、美國廣播公司和《華盛頓郵報》社這些主要的民調組織都發(fā)現，如果他們不把移動(dòng)用戶(hù)考慮進(jìn)來(lái)，民意測試結果就會(huì )出現三個(gè)點(diǎn)的偏差，而一旦考慮進(jìn)來(lái)，偏差就只有一個(gè)點(diǎn)。鑒于這次大選的票數差距幾期微弱，者已經(jīng)是非常大的偏差了。

更糟糕的是，隨機采樣不適合考察子類(lèi)別的情況。因為一旦繼續細分，隨機采樣結果的錯誤率會(huì )大大增加。這很容易理解。倘若你有伊恩隨機采樣的調差結果，是關(guān)于1000個(gè)人在下一次競選中的投票意向。如果采樣時(shí)足夠隨機，這份調查的結果就可能在3%的誤差范圍內顯示全民的意向。但是如果這個(gè)3%左右的誤差本來(lái)就是不確定的，卻又把這個(gè)調查結果根據性別、地域和收入進(jìn)行細分，結果是不是越來(lái)越不準確呢？用這個(gè)細分過(guò)后的結果來(lái)表現全民的一員，是否適合呢？

你設想一下，一個(gè)對1000個(gè)人進(jìn)行的調查，如果要鞋子分到“東北部的富裕“，調查的人數就遠遠少于1000人了。即使是完全隨機的調查，倘若只用了幾個(gè)人來(lái)預測整個(gè)東北部富裕女性選民的意愿，還是不可能得到精確結果??！而且，一旦采樣過(guò)程中存在任何偏見(jiàn)，在細分領(lǐng)域索道的預測就會(huì )大錯特錯。

因此，當人們想了解更深層次的細分領(lǐng)域的情況時(shí)，隨機采樣的方法就不可取了。在宏觀(guān)領(lǐng)域起作用的方法在微觀(guān)領(lǐng)域失去了作用。隨機采樣就像是模擬照片打印，遠看很不錯，但是一旦聚焦某個(gè)點(diǎn)，就會(huì )變得模糊不清。

隨機采樣也需要嚴密的安排和執行。人們只能采樣數據中得出事先設計好的問(wèn)題的結果——千萬(wàn)不要奢求采樣的數據還能回答你突然意識到的問(wèn)題。所以雖說(shuō)隨機采樣是一條捷徑，但它只是一條捷徑。隨機采樣方法并不適用與一切情況，因為這種調查結果缺乏延展性，即調查得出的數據不可以重新分析以實(shí)現計劃之外的目的。我們來(lái)看一下DNA粉絲。由于技術(shù)成本大幅度下降以及在醫學(xué)方面的廣闊前景，個(gè)人基因排序成為一門(mén)新興產(chǎn)業(yè)。2012年，基因組解碼的價(jià)格跌破1000美元，這也是非正式的行業(yè)平均水平。從2007年起，硅谷的新興科技公司23andme就開(kāi)始分析人類(lèi)基因，價(jià)格僅為幾百美元。這可以揭示出人類(lèi)遺傳密碼中一些會(huì )導致其對某些疾病抵抗力差的特征，如乳腺癌和心臟病。

上一篇 : 手機零售實(shí)體該有什么樣的“互聯(lián)網(wǎng)思維”

下一篇 : 互聯(lián)網(wǎng)思培訓——大數據，改變人類(lèi)探索世界的方法

相關(guān)熱門(mén)文章

相關(guān)熱門(mén)內訓課程

相關(guān)熱門(mén)公開(kāi)課程