更新時(shí)間:2017-08-31 來(lái)源:黑馬程序員云計(jì)算大數(shù)據(jù)培訓(xùn)學(xué)院 瀏覽量:
為了確保你組織的大數(shù)據(jù)計(jì)劃保持正軌,你需要消除以下10種常見(jiàn)的誤解。
1. 大數(shù)據(jù)就是“很多數(shù)據(jù)”
大數(shù)據(jù)從其核心來(lái)講,它描述了結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)如何結(jié)合社交媒體分析,物聯(lián)網(wǎng)的數(shù)據(jù)和其他外部來(lái)源,來(lái)講述一個(gè)”更大的故事”。該故事可能是一個(gè)組織運(yùn)營(yíng)的宏觀描述,或者是無(wú)法用傳統(tǒng)的分析方法捕獲的大局觀。從情報(bào)收集的角度來(lái)看,其所涉及的數(shù)據(jù)的大小是微不足道的。
2. 大數(shù)據(jù)必須非常干凈
在商業(yè)分析的世界里,沒(méi)有“太快”之類的東西。相反,在IT世界里,沒(méi)有“進(jìn)垃圾出金子”這樣的東西,你的數(shù)據(jù)有多干凈?一種方法是運(yùn)行你的分析應(yīng)用程序,它可以識(shí)別數(shù)據(jù)集中的弱點(diǎn)。一旦這些弱點(diǎn)得到解決,再次運(yùn)行分析以突出 “清理過(guò)的” 區(qū)域。
3. 所有人類分析人員會(huì)被機(jī)器算法取代
數(shù)據(jù)科學(xué)家的建議并不總是被前線的業(yè)務(wù)經(jīng)理們執(zhí)行。行業(yè)高管Arijit Sengupta在TechRepublic 的一篇文章中指出,這些建議往往比科學(xué)項(xiàng)目更難實(shí)施。然而,過(guò)分依賴機(jī)器學(xué)習(xí)算法也同樣具有挑戰(zhàn)性。Sengupta說(shuō),機(jī)器算法告訴你該怎么做,但它們沒(méi)有解釋你為什么要這么做。這使得很難將數(shù)據(jù)分析與公司戰(zhàn)略規(guī)劃的其余部分結(jié)合起來(lái)。
預(yù)測(cè)算法的范圍從相對(duì)簡(jiǎn)單的線性算法到更復(fù)雜的基于樹(shù)的算法,最后是極其復(fù)雜的神經(jīng)網(wǎng)絡(luò)。
來(lái)源:dataiku,dataconomy。
4. 數(shù)據(jù)湖是必不可少的
據(jù)豐田研究所數(shù)據(jù)科學(xué)家Jim Adler說(shuō),對(duì)于巨量存儲(chǔ)庫(kù),一些IT經(jīng)理們?cè)O(shè)想用它來(lái)存儲(chǔ)大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),根本就不存在。企業(yè)機(jī)構(gòu)不會(huì)不加區(qū)分地將所有數(shù)據(jù)存放到一個(gè)共享池中。Adler說(shuō),這些數(shù)據(jù)是 “精心規(guī)劃”的,存儲(chǔ)于獨(dú)立的部門(mén)數(shù)據(jù)庫(kù)中,鼓勵(lì)”專注的專業(yè)知識(shí)”。這是實(shí)現(xiàn)合規(guī)和其他治理要求所需的透明度和問(wèn)責(zé)制的唯一途徑。