本文作者:Oliver Schabenberger, CTO, SAS
最近我多次被問(wèn)到統(tǒng)計(jì)(尤其是統(tǒng)計(jì)建模)、機(jī)器學(xué)習(xí)和人工智能之間有何區(qū)別。其實(shí)這三者之間在目標(biāo)、技術(shù)和算法方面有很多重疊的部分。引起困惑的原因不僅僅是因?yàn)檫@些重疊部分,也是因?yàn)槲覀儽缓芏喾强破瘴闹械臅r(shí)髦詞兒給迷惑了。
統(tǒng)計(jì)建模
統(tǒng)計(jì)建模最基本的目標(biāo)是回答一個(gè)問(wèn)題:哪一種概率模型可以產(chǎn)生我所觀察到的數(shù)據(jù)?因此你必須:
1、 從一個(gè)合理的模型群里挑出候選模型
2、預(yù)估未知變量(參數(shù),Aka擬合模型到數(shù)據(jù)中)
3、比較擬合模型與其他備選模型
舉個(gè)例子,如果你的數(shù)據(jù)需要計(jì)算,例如流失客戶數(shù)或者細(xì)胞分裂數(shù),那么泊松模型(Poisson)、負(fù)二項(xiàng)模型或者零膨脹模型(zero-inflated model)都可能適用。
一旦某統(tǒng)計(jì)模型被選定,那預(yù)估模型將用于測(cè)試假設(shè)、創(chuàng)建預(yù)測(cè)值以及置信測(cè)量。預(yù)估模型將成為我們解析數(shù)據(jù)的透鏡。我們從未宣稱選定模型就能產(chǎn)生數(shù)據(jù),但是我們能觀察它基于某驗(yàn)證推理在隨機(jī)過(guò)程所獲取的合理近似值。
驗(yàn)證推理是統(tǒng)計(jì)建模的一個(gè)重要部分。舉例而言,要決策到底是哪一種或者哪三種醫(yī)療設(shè)備可以讓病患獲得最好的治療,你也許會(huì)感興趣使用一個(gè)模型,該模型能捕獲某種數(shù)據(jù)機(jī)制來(lái)判斷該病患在接受不同治療所獲得的不同結(jié)果。如果某個(gè)模型可以很好地捕獲數(shù)據(jù)產(chǎn)生機(jī)制,那么其也可以在那些被觀察數(shù)據(jù)區(qū)間內(nèi)做出很好的預(yù)測(cè),甚至可能預(yù)測(cè)出新的觀察結(jié)果。
經(jīng)典機(jī)器學(xué)習(xí)
經(jīng)典機(jī)器學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)型技術(shù),受模式識(shí)別啟動(dòng),專注于回歸算法和分類算法。其潛在的隨機(jī)機(jī)制通常并沒(méi)有作為最首要一項(xiàng)關(guān)注點(diǎn)。當(dāng)然很多機(jī)器學(xué)習(xí)技術(shù)也能通過(guò)隨機(jī)模型和回歸計(jì)算來(lái)定義,但是數(shù)據(jù)并不被認(rèn)為是由其模型直接生成的。因此,最重要的關(guān)注點(diǎn)是識(shí)別到底是執(zhí)行哪項(xiàng)特定任務(wù)的算法還是技術(shù)鑒定(或者集成方法):也就是說(shuō)客戶到底最好被分段于K(數(shù)據(jù)集群或聚類),還是DBSCAN,或者是決策樹,或者是隨機(jī)森林,又或者是SVM?
簡(jiǎn)而言之,對(duì)統(tǒng)計(jì)人員來(lái)說(shuō)模型是第一位的,對(duì)機(jī)器學(xué)習(xí)者而言,數(shù)據(jù)是第一位的。因?yàn)闄C(jī)器學(xué)習(xí)的終點(diǎn)是數(shù)據(jù),而不是模型。將數(shù)據(jù)分離出來(lái)去做訓(xùn)練集和測(cè)試集的驗(yàn)證技術(shù)(鑒定方法)是很重要的。一個(gè)解決方案的質(zhì)量高低并不僅僅依賴p-值,而是需要證明這個(gè)解決方案在以前不可見(jiàn)數(shù)據(jù)中是否表現(xiàn)良好。將一個(gè)統(tǒng)計(jì)模型擬合到一個(gè)數(shù)據(jù)集,或者將一個(gè)決策樹訓(xùn)練成一個(gè)數(shù)據(jù)集,將會(huì)需要融合一些未知值的預(yù)估值。該決策樹的最佳分割點(diǎn)取決于從屬變量的條件分布參數(shù)的預(yù)估值。
對(duì)我而言,沒(méi)有什么技術(shù)被證明可以自我學(xué)習(xí)。訓(xùn)練才是成型某種學(xué)習(xí)的必要過(guò)程,換句話說(shuō),這意味著要獲取一項(xiàng)新的技能技術(shù),訓(xùn)練就是學(xué)習(xí)的一部分。訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)取決于輸入數(shù)據(jù)的權(quán)重和偏差,如果它學(xué)習(xí)分類,而該網(wǎng)絡(luò)就變形成為一個(gè)分類器。
現(xiàn)代機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)系統(tǒng)如果不是編程去執(zhí)行一個(gè)任務(wù),而是編程去學(xué)習(xí)執(zhí)行一項(xiàng)任務(wù),那么這就是一個(gè)真正的學(xué)習(xí)系統(tǒng),我把這叫做現(xiàn)代機(jī)器學(xué)習(xí)。就像經(jīng)典機(jī)器學(xué)習(xí)的變體,這也是一個(gè)數(shù)據(jù)驅(qū)動(dòng)型的實(shí)踐。但不一樣的地方是,現(xiàn)代機(jī)器學(xué)習(xí)不僅僅是依賴于豐富的算法技術(shù),幾乎所有的這類機(jī)器學(xué)習(xí)的應(yīng)用都基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)。
這個(gè)領(lǐng)域我們現(xiàn)在傾向于稱它為深度學(xué)習(xí),一種機(jī)器學(xué)習(xí)的細(xì)分,經(jīng)常應(yīng)用于人工智能,也就是說(shuō)讓機(jī)器去執(zhí)行人類的任務(wù)。
數(shù)據(jù)扮演什么角色?
現(xiàn)在我們可以通過(guò)數(shù)據(jù)所承擔(dān)的角色來(lái)區(qū)分統(tǒng)計(jì)建模、經(jīng)典機(jī)器學(xué)習(xí)和現(xiàn)代機(jī)器學(xué)習(xí)。
在統(tǒng)計(jì)建模里面,數(shù)據(jù)引導(dǎo)我們?nèi)ミx擇隨機(jī)模型,來(lái)形成對(duì)不同問(wèn)題概率的抽象表達(dá),例如假設(shè)、預(yù)測(cè)和預(yù)報(bào)。
在經(jīng)典機(jī)器學(xué)習(xí)里,數(shù)據(jù)驅(qū)動(dòng)的是對(duì)分析技術(shù)的選擇,如何最佳地執(zhí)行即將任務(wù),這是數(shù)據(jù)訓(xùn)練算法。
在現(xiàn)代機(jī)器學(xué)習(xí)里,數(shù)據(jù)驅(qū)動(dòng)基于神經(jīng)網(wǎng)絡(luò)算法的系統(tǒng),去學(xué)習(xí)具體任務(wù),系統(tǒng)可以自動(dòng)判定數(shù)據(jù)常量規(guī)則。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)的過(guò)程中,系統(tǒng)逐漸學(xué)習(xí)到執(zhí)行任務(wù),就像某人所說(shuō):“是數(shù)據(jù)在做編程。”