經(jīng)典案例
  • 金融大數據解決方案
  • 汽車(chē)大數據解決方案
  • 政府大數據解決方案
  • 鐵路大數據解決方案
  • 電力大數據解決方案
  • 軍工大數據解決方案
  • 解放軍總裝備部
  • 中國航天科工集團
  • 航天科技集團

北京軟件開(kāi)發(fā)公司大數據思維原理與誤區詳細解

發(fā)布于:2020-01-03 21:09來(lái)源:北京大數據公司 作者:北京軟件開(kāi)發(fā)公司 點(diǎn)擊:

【北京華盛恒輝科技有限公司 ——(hivekion)是一家軟件定制開(kāi)發(fā)公司,專(zhuān)注IT產(chǎn)品研發(fā)與服務(wù),堅持穩健經(jīng)營(yíng)、持續創(chuàng )新、開(kāi)放合作,在安全生產(chǎn)、大數據處理等領(lǐng)域構筑了端到端的解決方案優(yōu)勢,為企業(yè)客戶(hù)提供有競爭力的IT解決方案、 產(chǎn)品和服務(wù)。
 


原理

1、數據核心原理

從“流程”核心轉變?yōu)?ldquo;數據”核心

大數據時(shí)代,計算模式也發(fā)生了轉變,從“流程”核心轉變?yōu)?ldquo;數據”核心。Hadoop體系的分布式計算框架已經(jīng)是“數據”為核心的范式。非結構化數據及分析需求,將改變IT系統的升級方式:從簡(jiǎn)單增量到架構變化。大數據下的新思維——計算模式的轉變。

例如:IBM將使用以數據為中心的設計,目的是降低在超級計算機之間進(jìn)行大量數據交換的必要性。大數據下,云計算找到了破繭重生的機會(huì ),在存儲和計算上都體現了數據為核心的理念。大數據和云計算的關(guān)系:云計算為大數據提供了有力的工具和途徑,大數據為云計算提供了很有價(jià)值的用武之地。而大數據比云計算更為落地,可有效利用已大量建設的云計算資源,后加以利用。

科學(xué)進(jìn)步越來(lái)越多地由數據來(lái)推動(dòng),海量數據給數據分析既帶來(lái)了機遇,也構成了新的挑戰。大數據往往是利用眾多技術(shù)和方法,綜合源自多個(gè)渠道、不同時(shí)間的信息而獲得的。為了應對大數據帶來(lái)的挑戰,我們需要新的統計思路和計算方法。

說(shuō)明:用數據核心思維方式思考問(wèn)題,解決問(wèn)題。以數據為核心,反映了當下IT產(chǎn)業(yè)的變革,數據成為人工智能的基礎,也成為智能化的基礎,數據比流程更重要,數據庫、記錄數據庫,都可開(kāi)發(fā)出深層次信息。云計算機可以從數據庫、記錄數據庫中搜索出你是誰(shuí),你需要什么,從而推薦給你需要的信息。

2、數據價(jià)值原理

由功能是價(jià)值轉變?yōu)閿祿莾r(jià)值

大數據真正有意思的是數據變得在線(xiàn)了,這個(gè)恰恰是互聯(lián)網(wǎng)的特點(diǎn)。非互聯(lián)網(wǎng)時(shí)期的產(chǎn)品,功能一定是它的價(jià)值,今天互聯(lián)網(wǎng)的產(chǎn)品,數據一定是它的價(jià)值。

華盛恒輝舉例:大數據的真正價(jià)值在于創(chuàng )造,在于填補無(wú)數個(gè)還未實(shí)現過(guò)的空白。有人把數據比喻為蘊藏能量的煤礦,煤炭按照性質(zhì)有焦煤、無(wú)煙煤、肥煤、貧煤等分類(lèi),而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類(lèi)似,大數據并不在“大”,而在于“有用”,價(jià)值含量、挖掘成本比數量更為重要。不管大數據的核心價(jià)值是不是預測,但是基于大數據形成決策的模式已經(jīng)為不少的企業(yè)帶來(lái)了盈利和聲譽(yù)。

數據能告訴我們,每一個(gè)客戶(hù)的消費傾向,他們想要什么,喜歡什么,每個(gè)人的需求有哪些區別,哪些又可以被集合到一起來(lái)進(jìn)行分類(lèi)。大數據是數據數量上的增加,以至于我們能夠實(shí)現從量變到質(zhì)變的過(guò)程。舉例來(lái)說(shuō),這里有一張照片,照片里的人在騎馬,這張照片每一分鐘,每一秒都要拍一張,但隨著(zhù)處理速度越來(lái)越快,從1分鐘一張到1秒鐘1張,突然到1秒鐘10張后,就產(chǎn)生了電影。當數量的增長(cháng)實(shí)現質(zhì)變時(shí),就從照片變成了一部電影。

美國有一家創(chuàng )新企業(yè)Decide.com

它可以幫助人們做購買(mǎi)決策,告訴消費者什么時(shí)候買(mǎi)什么產(chǎn)品,什么時(shí)候買(mǎi)最便宜,預測產(chǎn)品的價(jià)格趨勢,這家公司背后的驅動(dòng)力就是大數據。他們在全球各大網(wǎng)站上搜集數以十億計的數據,然后幫助數以十萬(wàn)計的用戶(hù)省錢(qián),為他們的采購找到最好的時(shí)間,降低交易成本,為終端的消費者帶去更多價(jià)值。

在這類(lèi)模式下,盡管一些零售商的利潤會(huì )進(jìn)一步受擠壓,但從商業(yè)本質(zhì)上來(lái)講,可以把錢(qián)更多地放回到消費者的口袋里,讓購物變得更理性,這是依靠大數據催生出的一項全新產(chǎn)業(yè)。這家為數以十萬(wàn)計的客戶(hù)省錢(qián)的公司,在幾個(gè)星期前,被eBay以高價(jià)收購。

北京軟件開(kāi)發(fā)公司再舉一個(gè)例子,SWIFT是全球最大的支付平臺,在該平臺上的每一筆交易都可以進(jìn)行大數據的分析,他們可以預測一個(gè)經(jīng)濟體的健康性和增長(cháng)性。比如,該公司現在為全球性客戶(hù)提供經(jīng)濟指數,這又是一個(gè)大數據服務(wù)。,定制化服務(wù)的關(guān)鍵是數據?!洞髷祿r(shí)代》的作者維克托·邁爾·舍恩伯格認為,大量的數據能夠讓傳統行業(yè)更好地了解客戶(hù)需求,提供個(gè)性化的服務(wù)。

華盛恒輝說(shuō)明:用數據價(jià)值思維方式思考問(wèn)題,解決問(wèn)題。信息總量的變化導致了信息形態(tài)的變化,量變引發(fā)了質(zhì)變,先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因學(xué),創(chuàng )造出了“大數據”這個(gè)概念。如今,這個(gè)概念幾乎應用到了所有人類(lèi)致力于發(fā)展的領(lǐng)域中。從功能為價(jià)值轉變?yōu)閿祿閮r(jià)值,說(shuō)明數據和大數據的價(jià)值在擴大,數據為“王”的時(shí)代出現了。數據被解釋是信息,信息常識化是知識,所以說(shuō)數據解釋、數據分析能產(chǎn)生價(jià)值。

3、全樣本原理

從抽樣轉變?yōu)樾枰繑祿颖?/b>

需要全部數據樣本而不是抽樣,你不知道的事情比你知道的事情更重要,但如果現在數據足夠多,它會(huì )讓人能夠看得見(jiàn)、摸得著(zhù)規律。數據這么大、這么多,所以人們覺(jué)得有足夠的能力把握未來(lái),對不確定狀態(tài)的一種判斷,從而做出自己的決定。這些東西我們聽(tīng)起來(lái)都是非常原始的,但是實(shí)際上背后的思維方式,和我們今天所講的大數據是非常像的。

華盛恒輝舉例:在大數據時(shí)代,無(wú)論是商家還是信息的搜集者,會(huì )比我們自己更知道你可能會(huì )想干什么?,F在的數據還沒(méi)有被真正挖掘,如果真正挖掘的話(huà),通過(guò)信用卡消費的記錄,可以成功預測未來(lái)5年內的情況。統計學(xué)里頭基本的一個(gè)概念就是,全部樣本才能找出規律。為什么能夠找出行為規律?一個(gè)更深層的概念是人和人是一樣的,如果是一個(gè)人特例出來(lái),可能很有個(gè)性,但當人口樣本數量足夠大時(shí),就會(huì )發(fā)現其實(shí)每個(gè)人都是一模一樣的。

華盛恒輝說(shuō)明:用全數據樣本思維方式思考問(wèn)題,解決問(wèn)題。從抽樣中得到的結論總是有水分的,而全部樣本中得到的結論水分就很少,大數據越大,真實(shí)性也就越大,因為大數據包含了全部的信息。

4、關(guān)注效率原理

由關(guān)注精確度轉變?yōu)殛P(guān)注效率

關(guān)注效率而不是精確度,大數據標志著(zhù)人類(lèi)在尋求量化和認識世界的道路上前進(jìn)了一大步,過(guò)去不可計量、存儲、分析和共享的很多東西都被數據化了,擁有大量的數據和更多不那么精確的數據為我們理解世界打開(kāi)了一扇新的大門(mén)。大數據能提高生產(chǎn)效率和銷(xiāo)售效率,原因是大數據能夠讓我們知道市場(chǎng)的需要,人的消費需要。大數據讓企業(yè)的決策更科學(xué),由關(guān)注精確度轉變?yōu)殛P(guān)注效率的提高,大數據分析能提高企業(yè)的效率。

華盛恒輝例如:在互聯(lián)網(wǎng)大數據時(shí)代,企業(yè)產(chǎn)品迭代的速度在加快。三星、小米手機制造商半年就推出一代新智能手機。利用互聯(lián)網(wǎng)、大數據提高企業(yè)效率的趨勢下,快速就是效率、預測就是效率、預見(jiàn)就是效率、變革就是效率、創(chuàng )新就是效率、應用就是效率。

競爭是企業(yè)的動(dòng)力,而效率是企業(yè)的生命,效率低與效率高是衡量企來(lái)成敗的關(guān)鍵。一般來(lái)講,投入與產(chǎn)出比是效率,追求高效率也就是追求高價(jià)值。手工、機器、自動(dòng)機器、智能機器之間效率是不同的,智能機器效率更高,已能代替人的思維勞動(dòng)。智能機器核心是大數據制動(dòng),而大數據制動(dòng)的速度更快。在快速變化的市場(chǎng),快速預測、快速決策、快速創(chuàng )新、快速定制、快速生產(chǎn)、快速上市成為企業(yè)行動(dòng)的準則,也就是說(shuō),速度就是價(jià)值,效率就是價(jià)值,而這一切離不開(kāi)大數據思維。

華盛恒輝說(shuō)明:用關(guān)注效率思維方式思考問(wèn)題,解決問(wèn)題。大數據思維有點(diǎn)像混沌思維,確定與不確定交織在一起,過(guò)去那種一元思維結果,已被二元思維結果取代。過(guò)去尋求精確度,現在尋求高效率;過(guò)去尋求因果性,現在尋求相關(guān)性;過(guò)去尋找確定性,現在尋找概率性,對不精確的數據結果已能容忍。只要大數據分析指出可能性,就會(huì )有相應的結果,從而為企業(yè)快速決策、快速動(dòng)作、創(chuàng )占先機提高了效率。

5、關(guān)注相關(guān)性原理

由因果關(guān)系轉變?yōu)殛P(guān)注相關(guān)性

關(guān)注相關(guān)性而不是因果關(guān)系,社會(huì )需要放棄它對因果關(guān)系的渴求,而僅需關(guān)注相關(guān)關(guān)系,也就是說(shuō)只需要知道是什么,而不需要知道為什么。這就推翻了自古以來(lái)的慣例,而我們做決定和理解現實(shí)的基本方式也將受到挑戰。

華盛恒輝例如:大數據思維一個(gè)突出的特點(diǎn),就是從傳統的因果思維轉向相關(guān)思維,傳統的因果思維是說(shuō)我一定要找到一個(gè)原因,推出一個(gè)結果來(lái)。而大數據沒(méi)有必要找到原因,不需要科學(xué)的手段來(lái)證明這個(gè)事件和那個(gè)事件之間有一個(gè)必然,先后關(guān)聯(lián)發(fā)生的一個(gè)因果規律。它只需要知道,出現這種跡象的時(shí)候,我就按照一般的情況,這個(gè)數據統計的高概率顯示它會(huì )有相應的結果,那么我只要發(fā)現這種跡象的時(shí)候,我就可以去做一個(gè)決策,我該怎么做。這是和以前的思維方式很不一樣,老實(shí)說(shuō),它是一種有點(diǎn)反科學(xué)的思維,科學(xué)要求實(shí)證,要求找到準確的因果關(guān)系。

在這個(gè)不確定的時(shí)代里面,等我們去找到準確的因果關(guān)系,再去辦事的時(shí)候,這個(gè)事情早已經(jīng)不值得辦了。所以“大數據”時(shí)代的思維有點(diǎn)像回歸了工業(yè)社會(huì )的這種機械思維——機械思維就是說(shuō)我按那個(gè)按鈕,一定會(huì )出現相應的結果,是這樣狀態(tài)。而農業(yè)社會(huì )往前推,不需要找到中間非常緊密的、明確的因果關(guān)系,而只需要找到相關(guān)關(guān)系,只需要找到跡象就可以了。社會(huì )因此放棄了尋找因果關(guān)系的傳統偏好,開(kāi)始挖掘相關(guān)關(guān)系的好處。

華盛恒輝例如:美國人開(kāi)發(fā)一款“個(gè)性化分析報告自動(dòng)可視化程序”軟件從網(wǎng)上挖掘數據信息,這款數據挖掘軟件將自動(dòng)從各種數據中提取重要信息,然后進(jìn)行分析,并把此信息與以前的數據關(guān)聯(lián)起來(lái),分析出有用的信息。

非法在屋內打隔斷的建筑物著(zhù)火的可能性比其他建筑物高很多。紐約市每年接到2.5萬(wàn)宗有關(guān)房屋住得過(guò)于擁擠的投訴,但市里只有200名處理投訴的巡視員,市長(cháng)辦公室一個(gè)分析專(zhuān)家小組覺(jué)得大數據可以幫助解決這一需求與資源的落差。該小組建立了一個(gè)市內全部90萬(wàn)座建筑物的數據庫,并在其中加入市里19個(gè)部門(mén)所收集到的數據:欠稅扣押記錄、水電使用異常、繳費拖欠、服務(wù)切斷、救護車(chē)使用、當地犯罪率、鼠患投訴,諸如此類(lèi)。

接下來(lái),他們將這一數據庫與過(guò)去5年中按嚴重程度排列的建筑物著(zhù)火記錄進(jìn)行比較,希望找出相關(guān)性。果然,建筑物類(lèi)型和建造年份是與火災相關(guān)的因素。不過(guò),一個(gè)沒(méi)怎么預料到的結果是,獲得外磚墻施工許可的建筑物與較低的嚴重火災發(fā)生率之間存在相關(guān)性。利用所有這些數據,該小組建立了一個(gè)可以幫助他們確定哪些住房擁擠投訴需要緊急處理的系統。他們所記錄的建筑物的各種特征數據都不是導致火災的原因,但這些數據與火災隱患的增加或降低存在相關(guān)性。這種知識被證明是極具價(jià)值的:過(guò)去房屋巡視員出現場(chǎng)時(shí)簽發(fā)房屋騰空令的比例只有13%,在采用新辦法之后,這個(gè)比例上升到了70%——效率大大提高了。

全世界的商界人士都在高呼大數據時(shí)代來(lái)臨的優(yōu)勢:一家超市如何從一個(gè)17歲女孩的購物清單中,發(fā)現了她已懷孕的事實(shí);或者將啤酒與尿不濕放在一起銷(xiāo)售,神奇地提高了雙方的銷(xiāo)售額。大數據透露出來(lái)的信息有時(shí)確實(shí)會(huì )起顛覆。比如,騰訊一項針對社交網(wǎng)絡(luò )的統計顯示,愛(ài)看家庭劇的男人是女性的兩倍還多;關(guān)心金價(jià)的是中國大媽?zhuān)o隨其后的卻是90后。而在過(guò)去一年,支付寶中無(wú)線(xiàn)支付比例排名前十的竟然全部在青海、西藏和內蒙古地區。

華盛恒輝說(shuō)明:用關(guān)注相關(guān)性思維方式來(lái)思考問(wèn)題,解決問(wèn)題。尋找原因是一種現代社會(huì )的一神論,大數據推翻了這個(gè)論斷。過(guò)去尋找原因的信念正在被“更好”的相關(guān)性所取代。當世界由探求因果關(guān)系變成挖掘相關(guān)關(guān)系,我們怎樣才能既不損壞建立在因果推理基礎之上的社會(huì )繁榮和人類(lèi)進(jìn)步的基石,又取得實(shí)際的進(jìn)步呢?這是值得思考的問(wèn)題。

華盛恒輝解釋?zhuān)恨D向相關(guān)性,不是不要因果關(guān)系,因果關(guān)系還是基礎,科學(xué)的基石還是要的。只是在高速信息化的時(shí)代,為了得到即時(shí)信息,實(shí)時(shí)預測,在快速的大數據分析技術(shù)下,尋找到相關(guān)性信息,就可預測用戶(hù)的行為,為企業(yè)快速決策提供提前量。

比如預警技術(shù),只有提前幾十秒察覺(jué),防御系統才能起作用。比如,雷達顯示有個(gè)提前量,如果沒(méi)有這個(gè)預知的提前量,雷達的作用也就沒(méi)有了,相關(guān)性也是這個(gè)原理。比如,相對論與量子論的爭論也能說(shuō)明問(wèn)題,一個(gè)說(shuō)上帝不擲骰子,一個(gè)說(shuō)上帝擲骰子,爭論幾十年,后承認兩個(gè)都存在,而且量子論取得更大的發(fā)展——一個(gè)適用于宇宙尺度,一個(gè)適用于原子尺度。

6、預測原理

從不能預測轉變?yōu)榭梢灶A測

大數據的核心就是預測,大數據能夠預測體現在很多方面。大數據不是要教機器像人一樣思考,相反,它是把數學(xué)算法運用到海量的數據上來(lái)預測事情發(fā)生的可能性。正因為在大數據規律面前,每個(gè)人的行為都跟別人一樣,沒(méi)有本質(zhì)變化,所以商家會(huì )比消費者更了消費者的行為。

華盛恒輝例如:大數據助微軟準確預測世界杯

微軟大數據團隊在2014年巴西世界足球賽前設計了世界杯模型,該預測模型正確預測了賽事后幾輪每場(chǎng)比賽的結果,包括預測德國隊將終獲勝。預測成功歸功于微軟在世界杯進(jìn)行過(guò)程中獲取的大量數據,到淘汰賽階段,數據如滾雪球般增多,常握了有關(guān)球員和球隊的足夠信息,以適當校準模型并調整對接下來(lái)比賽的預測。

世界杯預測模型的方法與設計其它事件的模型相同,訣竅就是在預測中去除主觀(guān)性,讓數據說(shuō)話(huà)。預測性數學(xué)模型幾乎不算新事物,但它們正變得越來(lái)越準確。在這個(gè)時(shí)代,數據分析能力終于開(kāi)始趕上數據收集能力,分析師不僅有比以往更多的信息可用于構建模型,也擁有在很短時(shí)間內通過(guò)計算機將信息轉化為相關(guān)數據的技術(shù)。

幾年前,得等每場(chǎng)比賽結束以后才能獲取所有數據,現在,數據是自動(dòng)實(shí)時(shí)發(fā)送的,這讓預測模型能獲得更好的調整且更準確。微軟世界懷模型的成績(jì)說(shuō)明了其模型的實(shí)力,它的成功為大數據的力量提供了強有力的證明,利用同樣的方法還可預測選舉或關(guān)注股票。類(lèi)似的大數據分析正用于商業(yè)、政府、經(jīng)濟學(xué)和社會(huì )科學(xué),它們都關(guān)于原始數據進(jìn)行分析。

我們進(jìn)入了一個(gè)用數據進(jìn)行預測的時(shí)代,雖然我們可能無(wú)法解釋其背后的原因。如果一個(gè)醫生只要求病人遵從醫囑,卻沒(méi)法說(shuō)明醫學(xué)干預的合理性的話(huà),情況會(huì )怎么樣呢?實(shí)際上,這是依靠大數據取得病理分析的醫生們一定會(huì )做的事情。

從一個(gè)人亂穿馬路時(shí)行進(jìn)的軌跡和速度來(lái)看他能及時(shí)穿過(guò)馬路的可能性,都是大數據可以預測的范圍。當然,如果一個(gè)人能及時(shí)穿過(guò)馬路,那么他亂穿馬路時(shí),車(chē)子就只需要稍稍減速就好。但是這些預測系統之所以能夠成功,關(guān)鍵在于它們是建立在海量數據的基礎之上的。

此外,隨著(zhù)系統接收到的數據越來(lái)越多,通過(guò)記錄找到的好的預測與模式,可以對系統進(jìn)行改進(jìn)。它通常被視為人工智能的一部分,或者更確切地說(shuō),被視為一種機器學(xué)習。真正的革命并不在于分析數據的機器,而在于數據本身和我們如何運用數據。一旦把統計學(xué)和現在大規模的數據融合在一起,將會(huì )顛覆很多我們原來(lái)的思維。所以現在能夠變成數據的東西越來(lái)越多,計算和處理數據的能力越來(lái)越強,所以大家突然發(fā)現這個(gè)東西很有意思。所以,大數據能干啥?能干很多很有意思的事情。

華盛恒輝例如:預測當年葡萄酒的品質(zhì)

很多品酒師品的不是葡萄酒,那時(shí)候葡萄酒還沒(méi)有真正的做成,他們品的是發(fā)爛的葡萄。因此在那個(gè)時(shí)間點(diǎn)就預測當年葡萄酒的品質(zhì)是比較冒險的。而且人的心理的因素是會(huì )影響他做的這個(gè)預測,比如說(shuō)地位越高的品酒師,在做預測時(shí)會(huì )越保守,因為他一旦預測錯了,要損失的名譽(yù)代價(jià)是很大的。所以的品酒大師一般都不敢貿然說(shuō)今年的酒特別好,或者是特別差;而剛出道的品酒師往往會(huì )“語(yǔ)不驚人死不休的”。

普林斯頓大學(xué)有一個(gè)英語(yǔ)學(xué)教授,他也很喜歡喝酒,喜歡儲藏葡萄酒,所以他就想是否可以分析到底哪年酒的品質(zhì)好。然后他就找了很多數據,比如說(shuō)降雨量、平均氣溫、土壤成分等等,然后他做回歸,后他說(shuō)把參數都找出來(lái),做了個(gè)網(wǎng)站,告訴大家今年葡萄酒的品質(zhì)好壞以及秘訣是什么。

當他的研究公布的時(shí)候,引起了業(yè)界的軒然大波,因為他做預測做的很提前,因為今年的葡萄收獲后要經(jīng)過(guò)一段的時(shí)間發(fā)酵,酒的味道才會(huì )好,但這個(gè)教授突然預測說(shuō)今年的酒是世紀好的酒。大家說(shuō)怎么敢這么說(shuō),太瘋狂了。更瘋狂的是到了第二年,他預測今年的酒比去年的酒更好,連續兩次預測說(shuō)是百年好的酒,但他真的預測對了?,F在品酒師在做評判之前,要先到他的網(wǎng)站上看看他的預測,然后再做出自己的判斷。有很多的規律我們不知道,但是它潛伏在這些大數據里頭。

華盛恒輝例如:大數據描繪“傷害圖譜”

廣州市傷害監測信息系統通過(guò)廣州市紅十字會(huì )醫院、番禺區中心醫院、越秀區兒童醫院3個(gè)傷害監測哨點(diǎn)醫院,持續收集市內發(fā)生的傷害信息,分析傷害發(fā)生的原因及危險因素,系統共收集傷害患者14681例,接近九成半都是意外事故。整體上,傷害多發(fā)生于男性,占61.76%,5歲以下兒童傷害比例高達14.36%,家長(cháng)和社會(huì )應高度重視,45.19%的傷害都是發(fā)生在家中,其次才是公路和街道。

收集到監測數據后,關(guān)鍵是通過(guò)分析處理,把數據“深加工”以利用。比如,監測數據顯示,老人跌倒多數不是發(fā)生在雨天屋外,而是發(fā)生在家里,尤其是旱上剛起床時(shí)和浴室里,這就提示,防控老人跌倒的對策應該著(zhù)重在家居,起床要注意不要動(dòng)作過(guò)猛,浴室要防滑,加扶手等等。

北京軟件開(kāi)發(fā)公司說(shuō)明:用大數據預測思維方式來(lái)思考問(wèn)題,解決問(wèn)題。數據預測、數據記錄預測、數據統計預測、數據模型預測,數據分析預測、數據模式預測、數據深層次信息預測等等,已轉變?yōu)榇髷祿A測、大數據記錄預測、大數據統計預測、大數據模型預測,大數據分析預測、大數據模式預測、大數據深層次信息預測。

互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和云計算機保證了大數據實(shí)時(shí)預測的可能性,也為企業(yè)和用戶(hù)提供了實(shí)時(shí)預測的信息,相關(guān)性預測的信息,讓企業(yè)和用戶(hù)搶占先機。由于大數據的全樣本性,人和人都是一樣的,所以云計算機軟件預測的效率和準確性大大提高,有這種跡象,就有這種結果。

7、信息找人原理

從人找信息轉變?yōu)樾畔⒄胰?/b>

互聯(lián)網(wǎng)和大數據的發(fā)展,是一個(gè)從人找信息,到信息找人的過(guò)程。先是人找信息,人找人,信息找信息,現在是信息找人的這樣一個(gè)時(shí)代。信息找人的時(shí)代,就是說(shuō)一方面我們回到了一種初的,廣播模式是信息找人,我們聽(tīng)收音機,我們看電視,它是信息推給我們的,但是有一個(gè)缺陷,不知道我們是誰(shuí),后來(lái)互聯(lián)網(wǎng)反其道而行,提供搜索引擎技術(shù),讓我知道如何找到我所需要的信息,所以搜索引擎是一個(gè)很關(guān)鍵的技術(shù)。

華盛恒輝例如:從搜索引擎——向推薦引擎轉變。今天,后搜索引擎時(shí)代已經(jīng)正式來(lái)到,什么叫做后搜索引擎時(shí)代呢?使用搜索引擎的頻率會(huì )大大降低,使用的時(shí)長(cháng)也會(huì )大大的縮短,為什么使用搜索引擎的頻率在下降?時(shí)長(cháng)在下降?原因是推薦引擎的誕生。就是說(shuō)從人找信息到信息找人越來(lái)越成為了一個(gè)趨勢,推薦引擎就是說(shuō)它很懂我,知道我要知道,所以是好的技術(shù)。喬布斯說(shuō),讓人感受不到技術(shù)的技術(shù)是好的技術(shù)。

大數據還改變了信息優(yōu)勢。按照循證醫學(xué),現在治病的第一件事情不是去研究病理學(xué),而是拿過(guò)去的數據去研究,相同情況下是如何治療的。這導致專(zhuān)家和普通人之間的信息優(yōu)勢沒(méi)有了。原來(lái)我相信醫生,因為醫生知道的多,但現在我可以到谷歌上查一下,知道自己得了什么病。

谷歌有一個(gè)機器翻譯的團隊,開(kāi)始的時(shí)候翻譯之后的文字根本看不懂,但是現在60%的內容都能讀得懂。谷歌機器翻譯團隊里頭有一個(gè)笑話(huà),說(shuō)從團隊每離開(kāi)一個(gè)語(yǔ)言學(xué)家,翻譯質(zhì)量就會(huì )提高。越是專(zhuān)家越搞不明白,但打破常規讓數據說(shuō)話(huà),得到真理的速度反而更快。

華盛恒輝說(shuō)明:用信息找人的思維方式思考問(wèn)題,解決問(wèn)題。從人找信息到信息找人,是交互時(shí)代一個(gè)轉變,也是智能時(shí)代的要求。智能機器已不是冷冰冰的機器,而是具有一定智能的機器。信息找人這四個(gè)字,預示著(zhù)大數據時(shí)代可以讓信息找人,原因是企業(yè)懂用戶(hù),機器懂用戶(hù),你需要什么信息,企業(yè)和機器提前知道,而且主動(dòng)提供你需要的信息。

8、機器懂人原理

由人懂機器轉變?yōu)闄C器更懂人

不是讓人更懂機器,而是讓機器更懂人,或者說(shuō)是能夠在使用者很笨的情況下,仍然可以使用機器。甚至不是讓人懂環(huán)境,而是讓我們的環(huán)境來(lái)懂我們,環(huán)境來(lái)適應人,某種程度上自然環(huán)境不能這樣講,但是在數字化環(huán)境中已經(jīng)是這樣的一個(gè)趨勢,就是我們所在的生活世界,越來(lái)越趨向于它更適應于我們,更懂我們。哪個(gè)企業(yè)能夠真正做到讓機器更懂人,讓環(huán)境更懂人,讓我們隨身攜帶的整個(gè)的生活世界更懂得我們的話(huà),那他一定是具有競爭力的了,而“大數據”技術(shù)能夠助我們一臂之力。

北京軟件開(kāi)發(fā)公司例如:亞馬遜網(wǎng)站,只要買(mǎi)書(shū),就會(huì )提供一個(gè)今天司空見(jiàn)慣的推薦,買(mǎi)了這本書(shū)的人還買(mǎi)了什么書(shū),后來(lái)發(fā)現相關(guān)推薦的書(shū)比我想買(mǎi)的書(shū)還要好,時(shí)間久之后就會(huì )對它產(chǎn)生一種信任。這種信任就像在北京的那么多書(shū)店里面,以前買(mǎi)書(shū)的時(shí)候就在幾家,原因在于我買(mǎi)書(shū)比較多,他都已經(jīng)認識我了,都是我一去之后,我不說(shuō)我要買(mǎi)什么書(shū),他會(huì )推薦最近上來(lái)的幾本書(shū),可能是我感興趣的。這樣我就不會(huì )到別的很近的書(shū)店,因為這家書(shū)店更懂我。

北京軟件開(kāi)發(fā)公司例如,解題機器人挑戰大型預科學(xué)校高考模擬試題的結果,解題機器人的學(xué)歷水平應該比肩普通高三學(xué)生。計算機不擅長(cháng)對語(yǔ)言和知識進(jìn)行綜合解析,但通過(guò)借助大規模數據庫對普通文章做出判斷的方法,在對話(huà)填空和語(yǔ)句重排等題型上成績(jì)有所提高。

讓機器懂人,是讓機器具有學(xué)習的功能。人工智能已轉變?yōu)檠芯繖C器學(xué)習。大數據分析要求機器更智能,具有分析能力,機器即時(shí)學(xué)習變得更重要。機器學(xué)習是指:計算機利用經(jīng)驗改善自身性能的行為。機器學(xué)習主要研究如何使用計算機模擬和實(shí)現人類(lèi)獲取知識(學(xué)習)過(guò)程、創(chuàng )新、重構已有的知識,從而提升自身處理問(wèn)題的能力,機器學(xué)習的最終目的是從數據中獲取知識。

大數據技術(shù)的其中一個(gè)核心目標是要從體量巨大、結構繁多的數據中挖掘出隱蔽在背后的規律,從而使數據發(fā)揮大化的價(jià)值。由計算機代替人去挖掘信息,獲取知識。從各種各樣的數據(包括結構化、半結構化和非結構化數據)中快速獲取有價(jià)值信息的能力,就是大數據技術(shù)。大數據機器分析中,半監督學(xué)習、集成學(xué)習、 概率模型等技術(shù)尤為重要。

華盛恒輝說(shuō)明:用機器更懂人的思維方式思考問(wèn)題,解決問(wèn)題。機器從沒(méi)有常識到逐步有點(diǎn)常識,這是很大的變化。去年,美國人把一臺云計算機送到大學(xué)里去進(jìn)修,增加知識和常識。近俄羅斯人開(kāi)發(fā)一臺計算機軟件通過(guò)圖林測試,表明計算機已初步具有智能。

讓機器懂人,這是人工智能的成功,同時(shí),也是人的大數據思維轉變。你的機器、你的軟件、你的服務(wù)是否更懂人?將是衡量一個(gè)機器、一件軟件、一項服務(wù)好壞的標準。人機關(guān)系已發(fā)生很大變化,由人機分離,轉化為人機溝通,人機互補,機器懂人,現在年青人已離不開(kāi)智能手機是一個(gè)很好的例證。在互聯(lián)網(wǎng)大數據時(shí)代,有問(wèn)題—問(wèn)機器—問(wèn)百度,成為生活的一部分。機器什么都知道,原因是有大數據庫,機器可搜索到相關(guān)數據,從而使機器懂人。是人讓機器更懂人,如果機器更懂人,那么機器的價(jià)值更高。

9、電子商務(wù)智能原理

改變了電子商務(wù)模式,讓其更智能

商務(wù)智能,在今天大數據時(shí)代它獲得的重新的定義。

華盛恒輝例如:傳統企業(yè)進(jìn)入互聯(lián)網(wǎng),在掌握了“大數據”技術(shù)應用途徑之后,會(huì )發(fā)現有一種豁然開(kāi)朗的感覺(jué),我整天就像在黑屋子里面找東西,找不著(zhù),突然碰到了一個(gè)開(kāi)關(guān),發(fā)現那么費力的找東西,原來(lái)很容易找得到。大數據思維,事實(shí)上它不是一個(gè)全稱(chēng)的判斷,只是對我們所處的時(shí)代某一個(gè)緯度的描述。

大數據時(shí)代不是說(shuō)我們這個(gè)時(shí)代除了大數據什么都沒(méi)有,哪怕是在互聯(lián)網(wǎng)和IT領(lǐng)域,它也不是一切,只是說(shuō)在我們的時(shí)代特征里面加上這么一道很明顯的光,從而導致我們對以前的生存狀態(tài),以及我們個(gè)人的生活狀態(tài)的一個(gè)差異化的一種表達。

華盛恒輝例如:大數據讓軟件更智能。盡管我們仍處于大數據時(shí)代來(lái)臨的前夕,但我們的日常生活已經(jīng)離不開(kāi)它了。交友網(wǎng)站根據個(gè)人的性格與之前成功配對的情侶之間的關(guān)聯(lián)來(lái)進(jìn)行新的配對。例如,具有“自動(dòng)改正”功能的智能手機通過(guò)分析我們以前的輸入,將個(gè)性化的新單詞添加到手機詞典里。在不久的將來(lái),世界許多現在單純依靠人類(lèi)判斷力的領(lǐng)域都會(huì )被計算機系統所改變甚至取代。計算機系統可以發(fā)揮作用的領(lǐng)域遠遠不止駕駛和交友,還有更多更復雜的任務(wù)。別忘了,亞馬遜可以幫我們推薦想要的書(shū),谷歌可以為關(guān)聯(lián)網(wǎng)站排序,Facebook知道我們的喜好,而linkedIn可以猜出我們認識誰(shuí)。

華盛恒輝當然,同樣的技術(shù)也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上?;蛘哒f(shuō),在你還不知道的情況下,體檢公司、醫院提醒你趕緊去做檢查,可能會(huì )得某些病,商家比你更了解你自己,以及你這樣的人在某種情況下會(huì )出現的可能變化。就像互聯(lián)網(wǎng)通過(guò)給計算機添加通信功能而改變了世界,大數據也將改變我們生活中重要的方面,因為它為我們的生活創(chuàng )造了前所未有的可量化的維度。

華盛恒輝說(shuō)明:用電子商務(wù)更智能的思維方式思考問(wèn)題,解決問(wèn)題。人腦思維與機器思維有很大差別,但機器思維在速度上是取勝的,而且智能軟件在很多領(lǐng)域已能代替人腦思維的操作工作。例如美國一家媒體公司已用電腦智能軟件寫(xiě)稿,可用率已達70%。云計算機已能處理超字節的大數據量,人們需要的所有信息都可得到顯現,而且每個(gè)人互聯(lián)網(wǎng)行為都可記錄,這些記錄的大數據經(jīng)過(guò)云計算處理能產(chǎn)生深層次信息,經(jīng)過(guò)大數據軟件挖掘,企業(yè)需要的商務(wù)信息都能實(shí)時(shí)提供,為企業(yè)決策和營(yíng)銷(xiāo)、定制產(chǎn)品等提供了大數據支持。

10、定制產(chǎn)品原理

由企業(yè)生產(chǎn)產(chǎn)品轉為由客戶(hù)定制產(chǎn)品

下一波的改革是大規模定制,為大量客戶(hù)定制產(chǎn)品和服務(wù),成本低、又兼具個(gè)性化。比如消費者希望他買(mǎi)的車(chē)有紅色、綠色,廠(chǎng)商有能力滿(mǎn)足要求,但價(jià)格又不至于像手工制作那般讓人無(wú)法承擔。因此,在廠(chǎng)家可以負擔得起大規模定制帶去的高成本的前提下,要真正做到個(gè)性化產(chǎn)品和服務(wù),就必須對客戶(hù)需求有很好的了解,這背后就需要依靠大數據技術(shù)。

華盛恒輝例如:大數據改變了企業(yè)的競爭力。定制產(chǎn)品這是一個(gè)很好的技術(shù),但是能不能夠形成企業(yè)的競爭力呢?在產(chǎn)業(yè)經(jīng)濟學(xué)里面有一個(gè)很重要的區別,就是生產(chǎn)力和競爭力的區別,就是說(shuō)一個(gè)東西是具有生產(chǎn)力的,那這種生產(chǎn)力變成一種通用生產(chǎn)力的時(shí)候,就不能形成競爭力,因為每一個(gè)人,每一個(gè)企業(yè)都有這個(gè)生產(chǎn)力的時(shí)候,只能提高自己的生產(chǎn)力,過(guò)去沒(méi)有車(chē)的時(shí)候和有車(chē)的時(shí)候,你的活動(dòng)半徑、運行速度大大提高了,但是當每一個(gè)人都沒(méi)有車(chē)的時(shí)候,你有車(chē),就會(huì )形成競爭力。大數據也一樣,你有大數據定制產(chǎn)品,別人沒(méi)有,就會(huì )形成競爭力。

在互聯(lián)網(wǎng)大數據的時(shí)代,商家最后很可能可以針對每一個(gè)顧客進(jìn)行精準的價(jià)格歧視。我們現在很多的行為都是比較粗放的,航空公司會(huì )給我們里程卡,根據飛行公里數來(lái)累計里程,但其實(shí)不同顧客所飛行的不同里程對航空公司的利潤貢獻是不一樣的。所以有一天某位顧客可能會(huì )收到一封信,“恭喜先生,您已經(jīng)被我們選為幸運顧客,我們提前把您升級到白金卡。”這說(shuō)明這個(gè)顧客對航空公司的貢獻已經(jīng)夠多了。有一天銀行說(shuō)“恭喜您,您的額度又被提高了,”就說(shuō)明錢(qián)花得已經(jīng)太多了。

正因為在大數據規律面前,每個(gè)人的行為都跟別人一樣,沒(méi)有本質(zhì)變化。所以商家會(huì )比消費者更了消費者的行為。也許你正在想,工作了一年很辛苦,要不要去哪里度假打開(kāi)e-Mail,就有航空公司、旅行社的郵件。

華盛恒輝說(shuō)明:用定制產(chǎn)品思維方式思考問(wèn)題,解決問(wèn)題。大數據時(shí)代讓企業(yè)找到了定制產(chǎn)品、訂單生產(chǎn)、用戶(hù)銷(xiāo)售的新路子。用戶(hù)在家購買(mǎi)商品已成為趨勢,快遞的快速,讓用戶(hù)體驗到實(shí)時(shí)購物的快感,進(jìn)而成為網(wǎng)購迷,個(gè)人消費不是減少了,反而是增加了。為什么企業(yè)要互聯(lián)網(wǎng)化大數據化,也許有這個(gè)原因。2000萬(wàn)家互聯(lián)網(wǎng)網(wǎng)店的出現,說(shuō)明數據廣告、數據傳媒的重要性。

企業(yè)產(chǎn)品直接銷(xiāo)售給用戶(hù),省去了中間商流通環(huán)節,使產(chǎn)品的價(jià)格可以以出廠(chǎng)價(jià)銷(xiāo)售,讓銷(xiāo)費者獲得了好處,網(wǎng)上產(chǎn)品便宜成為用戶(hù)的信念,網(wǎng)購市場(chǎng)形成了。要讓用戶(hù)成為你的產(chǎn)品粉絲,就必須了解用戶(hù)需要,定制產(chǎn)品成為用戶(hù)的心愿,也就成為企業(yè)發(fā)展的新方向。

大數據思維是客觀(guān)存在,大數據思維是新的思維觀(guān)。用大數據思維方式思考問(wèn)題,解決問(wèn)題是當下企業(yè)潮流。大數據思維開(kāi)啟了一次重大的時(shí)代轉型。

誤區

(1)大數據意味著(zhù)“很多”數據

目前,大數據已經(jīng)成為一個(gè)流行詞。但人們通常對它真正的含義還是不清楚。有些人將大數據簡(jiǎn)單地認為是大量的數據。但是,這并不完全正確,它比這稍微復雜一些。大數據是指一個(gè)數據集,無(wú)論是結構(如數據表)或非結構化(如元數據從電子郵件)結合的數據,如社會(huì )媒體分析或物聯(lián)網(wǎng)數據,形成一個(gè)更大的故事。大數據故事說(shuō)明組織很難用傳統的分析技術(shù)來(lái)捕獲發(fā)生的趨勢。

豐田研究院的數據研究總監吉姆·阿德勒表達了一個(gè)很好的觀(guān)點(diǎn):“數據也有質(zhì)量。這就像水一樣:玻璃容器中的水是非常易于管理。但是,如果混雜在洪水中,這將是壓倒性的災害。”他說(shuō),“在數據分析系統中,工作在一臺機器的的數據將被沖走時(shí),其數據規模將增長(cháng)100或1000倍。所以,當然,原型雖小,但其架構卻很大。”

(2)數據需要清潔

“大的誤區就是你必須要有干凈的數據進(jìn)行分析。”BeyondCore公司首席執行官阿里吉特·森古普塔說(shuō),“沒(méi)有人有干凈的數據,必須將數據進(jìn)行清理,否則分析是行不通的。這是一個(gè)瘋狂的想法。你要做的就是進(jìn)行一個(gè)足夠好的分析。你要分析所有的數據,盡管這些數據是骯臟的,這只說(shuō)明你有數據質(zhì)量問(wèn)題。我可以告訴你一些模式,盡管數據存在質(zhì)量問(wèn)題,但完全可以進(jìn)行正常分析?,F在,你可以集中進(jìn)行數據質(zhì)量工作,只是提高數據可以得到稍微好一點(diǎn)的洞察力。”

InOutsource商業(yè)智能和分析總監梅根·布茨梅因對此表示贊同,“很多時(shí)候,企業(yè)就會(huì )將這些工作能拖就拖,因為他們認為數據是不干凈的,這是沒(méi)有必要的。部署的分析應用程序將可以找到數據的薄弱環(huán)節,”她說(shuō)。“一旦這些問(wèn)題已經(jīng)確定,清理計劃可以投入到位。然后,分析應用程序可以利用一種機制,加大清理力度,并監測進(jìn)展情況。”

布茨梅因說(shuō)。“一旦你把這些數據整合在一起,你將在一個(gè)應用程序中賦予它生命的視覺(jué),你可以看到這些匯集在一起的數據的關(guān)聯(lián),你會(huì )很快看到你的資料不足。”她說(shuō),“你可以看到數據的問(wèn)題在于要提供一個(gè)清理數據的基準。”

(3)等待,讓你的數據完美

你不應該等待清理你的數據,這里還有一個(gè)原因,森古普塔說(shuō),“在你完全清除數據之后,這可能需要三個(gè)月的時(shí)間,然而三個(gè)月后,這些數據已經(jīng)陳舊過(guò)時(shí)了。”因此,這些信息將不再適用。

森古普塔表示,第一州際銀行的喬希·巴特曼在會(huì )議提出了一個(gè)重要觀(guān)點(diǎn)。喬希展示了他是如何運行分析,發(fā)現問(wèn)題,分析變化,重新運行分析的。他說(shuō),“你看,我的分析時(shí)間只有大約四到五分鐘。所以,如果我可以運行分析,發(fā)現問(wèn)題,解決問(wèn)題,再重新進(jìn)行分析,并在四、五分鐘后查看報告,改變如何處理分析的方法。”

森古普塔用編碼來(lái)比喻那些舊方式。“我的一切都是正確的,然后我進(jìn)行編碼。但現在,每個(gè)人進(jìn)行編碼都不太靈活。”他說(shuō)。“你寫(xiě)好程序之后,你必須要測試它,并查看如何能使它更好,那么等它變得更好之后。世界發(fā)生了變化,人們仍然采用的是舊的做事方法。”

(4)數據湖

數據湖是持有大量的原始結構化和結構化數據的松散的存儲庫,經(jīng)常在大數據的背景下提到。

唯一的問(wèn)題是,盡管他們是如何經(jīng)常被引用,但它們卻不存在,阿德勒說(shuō),“一個(gè)組織的數據不被倒入一個(gè)數據湖中。這是精心策劃的一個(gè)部門(mén)的數據庫。鼓勵集中使用專(zhuān)業(yè)知識。他們還提供了良好的數據治理和合規性所需的問(wèn)責性和透明度。”

(5)分析數據是昂貴的

如果假定在數據分析工具涉及一些費用的話(huà),你可能會(huì )害怕獲得數據。而可以告訴你的有好消息是,如今有許多免費的數據工具,任何人都可以開(kāi)始使用這些工具來(lái)分析大數據。

同時(shí),森古普塔表示,當今云計算的低成本意味著(zhù)“你真的可以做那些以前從來(lái)不可能實(shí)現的的事情。”

(6)機器算法將取代人類(lèi)分析

森古普塔認為在分析大數據方法有一個(gè)有趣的二分法。“有人說(shuō),解決這個(gè)問(wèn)題需要成千上萬(wàn)的數據科學(xué)家來(lái)分析解決,隨后,又有人說(shuō),采用機器學(xué)習就可以做到這一切。這將是完全自動(dòng)的。”

但是,桑古塔并不認為這些都是合適的解決方案。“沒(méi)有足夠的數據科學(xué)家,成本將快速上升。”他說(shuō),“此外,企業(yè)用戶(hù)有多年的域名登錄經(jīng)驗,并有著(zhù)對他們業(yè)務(wù)的直覺(jué)。當你請來(lái)一個(gè)數據科學(xué)家,并認為他會(huì )搞定這些工作,并告訴你該怎么做。這實(shí)際上創(chuàng )造了一個(gè)確切的錯誤,數據科學(xué)家們往往無(wú)法無(wú)法足夠了解企業(yè)的業(yè)務(wù)。”

“完美”的數據科學(xué)家,是那些準確理解具體業(yè)務(wù)如何運作,以及其數據是如何工作的,這是一個(gè)誤區。森古普塔說(shuō),“這樣的人根本不存在。”

在現實(shí)中,森古普塔說(shuō),“大多數數據科學(xué)項目實(shí)際上沒(méi)有得到實(shí)施,因為它是如此艱難,需要幾個(gè)月得到完成,而當它完成的時(shí)候,你所關(guān)心的問(wèn)題是已經(jīng)陳舊過(guò)時(shí)了。”

但是,也有過(guò)于依賴(lài)機器學(xué)習問(wèn)題。“機器學(xué)習只是給出一個(gè)答案,但并沒(méi)有解釋。它告訴人們該怎么做,而不是為什么要那樣做,”他說(shuō)。“人們不喜歡別人告訴他該怎么做,尤其是神奇的機器。”他說(shuō),其關(guān)鍵是不只是答案,而是其解釋和建議。

一方面,他說(shuō),數據科學(xué)家將變得越來(lái)越專(zhuān)業(yè)化,而這是真正困難的問(wèn)題。“想一想各機構和企業(yè)開(kāi)始建設了數據處理部門(mén)和一些處理部門(mén)。世界500強企業(yè)也有數據處理部門(mén)“或數字加工部門(mén)。但他們基本上變成了Excel,Word和PowerPoint。”盡管如此,人們仍然是數據和數字處理方面的專(zhuān)家。

“如果我去摩根士丹利,相信我,那些數據處理和數字處理方面的專(zhuān)家仍然存在。他們只是有著(zhù)不同的名稱(chēng)和不同的工作,但在真正的情況下,這些人仍然存在,但80%-90%的專(zhuān)家已經(jīng)轉移到Excel,Word和PowerPoint方面,這是全球在大數據方面應該發(fā)展的主要原因。”
 

tag標簽:
------分隔線(xiàn)----------------------------
------分隔線(xiàn)----------------------------
QQ客服熱線(xiàn)