大數(shù)據(jù)概念
大數(shù)據(jù)究竟是什么?很多人可能仍然有些混淆,本文讓我們來看看大數(shù)據(jù)的一些主要的定義。首先要注意的是,行業(yè)內(nèi)的所有人都普遍認(rèn)同,大數(shù)據(jù)不只是更多的數(shù)據(jù)。
(1)初的大數(shù)據(jù)
大數(shù)據(jù)的特征可以用很多詞來描述。2001年Doug Laney先提出“3V”模型, 包括數(shù)量 (Volume)、速度(Velocity)和種類(Variety)。在那以后,業(yè)界很多人把3V擴(kuò)展到了11V,還包括有效性、真實(shí)性、價(jià)值和可見性等。
(2)大數(shù)據(jù):技術(shù)
為什么十多年前的老術(shù)語突然被放在聚光燈下?這不僅是因?yàn)槲覀儸F(xiàn)在擁有比十年前更多的數(shù)量、速度和種類。而是因?yàn)榇髷?shù)據(jù)受到新技術(shù)的推動(dòng),特別是快速發(fā)展的開源技術(shù),例如Hadoop和其他存儲(chǔ)和處理數(shù)據(jù)的NoSQL方式。
如果你準(zhǔn)備入坑大數(shù)據(jù)開發(fā),可以關(guān)注ID:IT資訊科技 會(huì)有前沿的學(xué)習(xí)資訊
這些新技術(shù)的用戶需要一個(gè)術(shù)語來將它們區(qū)別于以前的技術(shù),于是大數(shù)據(jù)成了他們的佳選擇。如果你去參加大數(shù)據(jù)會(huì)議,你肯定會(huì)發(fā)現(xiàn),涉及關(guān)系型數(shù)據(jù)庫的會(huì)議會(huì)很少,無論他們鼓吹多少個(gè)V。
(3)大數(shù)據(jù)與數(shù)據(jù)的區(qū)別
大數(shù)據(jù)技術(shù)的問題是,大數(shù)據(jù)有些含糊不清,以至于行業(yè)中的每個(gè)供應(yīng)商都可以跳進(jìn)來聲稱自己的技術(shù)是大數(shù)據(jù)技術(shù)。以下是兩種很好的方法來幫助企業(yè)理解現(xiàn)在的大數(shù)據(jù)與過去單純的大數(shù)據(jù)的區(qū)別。
交易、交互和觀察:這是由Hortonworks公司負(fù)責(zé)企業(yè)戰(zhàn)略的副總裁Shaun Connolly提出的。交易是我們過去收集、存儲(chǔ)和分析的主要數(shù)據(jù)。交互是人們點(diǎn)擊網(wǎng)頁等操作得到的數(shù)據(jù)。觀察是自動(dòng)收集的數(shù)據(jù)。
(4)大數(shù)據(jù):信號
SAP公司的Steve Lucas認(rèn)為,應(yīng)該根據(jù)意圖和時(shí)機(jī)來劃分這個(gè)世界,而不是根據(jù)數(shù)據(jù)的類型。“舊世界”主要是關(guān)于交易,當(dāng)這些交易被記錄時(shí),我們已經(jīng)無法對它們采取任何行動(dòng):企業(yè)都在不斷管理“失效的數(shù)據(jù)”。而在“新世界”,企業(yè)可以使用新的“信號”數(shù)據(jù)來預(yù)測將會(huì)發(fā)生什么,并進(jìn)行干預(yù)來改善情況。
相關(guān)的案例有,追蹤社交媒體上人們對品牌的態(tài)度,以及預(yù)測性維護(hù)(用復(fù)雜的算法幫助你決定何時(shí)需要更換零部件)。
(5)大數(shù)據(jù):機(jī)會(huì)
這是來自451 Research的Matt Aslett,他將大數(shù)據(jù)定位為“之前因?yàn)榧夹g(shù)限制而被忽略的數(shù)據(jù)”。(雖然在技術(shù)上,Matt使用了“暗數(shù)據(jù)”,而不是大數(shù)據(jù),但已經(jīng)非常接近)。這是筆者喜歡的定義,因?yàn)樗洗蟛糠治恼潞陀懻撝械恼f法。
(6)大數(shù)據(jù):隱喻
Rick Smolan在其書中寫道,大數(shù)據(jù)是“幫助這個(gè)星球生成神經(jīng)系統(tǒng)的過程,其中我們?nèi)祟愔皇橇硪环N類型的傳感器”。很深?yuàn)W吧?如果你準(zhǔn)備入坑大數(shù)據(jù)開發(fā),可以關(guān)注ID:IT資訊科技 會(huì)有前沿的學(xué)習(xí)資訊。
(7)大數(shù)據(jù):新瓶裝舊酒
很多項(xiàng)目基本上是使用以前的技術(shù),這些過去被稱為BI或者分析的技術(shù)突然跳入大數(shù)據(jù)的行列中。
底線:盡管大家對大數(shù)據(jù)的定義有很多爭議,但所有人都同意這個(gè)事實(shí):大數(shù)據(jù)是一個(gè)大事件,在未來幾年將帶來巨大的機(jī)遇。
如何玩轉(zhuǎn)大數(shù)據(jù)
隨著科技的不斷進(jìn)步,日常工作、生活中的數(shù)據(jù)量也是節(jié)節(jié)攀升,我們迎來了大數(shù)據(jù)時(shí)代。
以大數(shù)據(jù)為代表的數(shù)據(jù)密集型科學(xué)將成為新一次技術(shù)變革的基石。隨著數(shù)據(jù)的進(jìn)一步集中和數(shù)據(jù)量的增大,對海量數(shù)據(jù)進(jìn)行安全防護(hù)變得更加困難,數(shù)據(jù)的分布式處理也加大了數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等新技術(shù)的發(fā)展,使得手機(jī)、平板電腦、PC及遍布地球各個(gè)角落的傳感器,成為數(shù)據(jù)來源和承載方式,BYOD也隨之誕生。
(1)何為大數(shù)據(jù)
據(jù)有關(guān)分析公司預(yù)測,到2013年,互聯(lián)網(wǎng)承載的數(shù)據(jù)量將會(huì)達(dá)到每年667EB,這是什么概念?1EB=230GB,數(shù)據(jù)量之大顯而易見,這些數(shù)據(jù)絕大多數(shù)是“非結(jié)構(gòu)化數(shù)據(jù)”,通常不能為傳統(tǒng)的數(shù)據(jù)庫所用,但是大數(shù)據(jù)技術(shù)革新將會(huì)給我們的生活帶來巨大變化。
(2)四大特點(diǎn)組成大數(shù)據(jù)
數(shù)據(jù)量巨大:人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約5EB(1EB=210PB)。當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級,如此龐大的數(shù)據(jù)量群,分析它們的難度可想而知,因此需要大量的大數(shù)據(jù)解決方案。
價(jià)值密度低:這也是當(dāng)今大數(shù)據(jù)背景下需要解決的一個(gè)難題,價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比,如果看一小時(shí)視頻,在連續(xù)不間斷的監(jiān)控中有用數(shù)據(jù)的時(shí)間可能會(huì)很短,甚至是幾秒鐘,那么強(qiáng)大的數(shù)據(jù)計(jì)算機(jī)的算法就需要非常迅速地完成對數(shù)據(jù)的“提純”。
數(shù)據(jù)類型多:這點(diǎn)不用多解釋,數(shù)據(jù)類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。
處理速度快:據(jù)IDC研究機(jī)構(gòu)報(bào)告顯示,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB(1ZB=210EB),分析這么大的數(shù)據(jù),就需要設(shè)備對數(shù)據(jù)的處理速度有很大的提升。
(3)大數(shù)據(jù)給企業(yè)謀福利
2012年3月,美國宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,借以增強(qiáng)收集海量數(shù)據(jù)、分析萃取信息的能力。2012年瑞士達(dá)沃斯論壇上發(fā)布的《大數(shù)據(jù)大影響》報(bào)告稱,數(shù)據(jù)已成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣,許多國家政府更是把大數(shù)據(jù)上升到戰(zhàn)略層面。
(4)全球大數(shù)據(jù)市場發(fā)展趨勢
對企業(yè)來講,在大數(shù)據(jù)背景下數(shù)據(jù)資產(chǎn)將會(huì)取代人才成為各個(gè)公司和行業(yè)的重要載體,可以有效地幫助企業(yè)完成業(yè)務(wù)的操作、流程的制定以及公司各項(xiàng)工作的運(yùn)營和監(jiān)督,通過對數(shù)據(jù)的分析,幫助企業(yè)領(lǐng)導(dǎo)者進(jìn)行各項(xiàng)決策。
大數(shù)據(jù)對企業(yè)的核心資產(chǎn)也進(jìn)行了重塑,企業(yè)必須熟悉和用好海量的數(shù)據(jù),而互聯(lián)網(wǎng)行業(yè)已提早感受到了大數(shù)據(jù)帶來的深切變化。一些互聯(lián)網(wǎng)企業(yè)已經(jīng)完成了核心競爭力的重新定義。
(5)信息安全不容小視
大數(shù)據(jù)成為網(wǎng)絡(luò)攻擊的顯著目標(biāo),在網(wǎng)絡(luò)空間,大數(shù)據(jù)是更容易被“發(fā)現(xiàn)”的大目標(biāo)。一方面,大數(shù)據(jù)意味著海量的數(shù)據(jù),也意味著更復(fù)雜、更敏感的數(shù)據(jù),這些數(shù)據(jù)會(huì)吸引更多的潛在攻擊者。另一方面,數(shù)據(jù)的大量匯集,使得黑客成功攻擊一次就能獲得更多數(shù)據(jù),無形中降低了黑客的進(jìn)攻成本,增加了“收益率”。
如此龐大的數(shù)據(jù)中包含了很多個(gè)人信息,甚至是隱私信息,數(shù)據(jù)的集中存儲(chǔ)就勢必帶來大量數(shù)據(jù)丟失和破壞的風(fēng)險(xiǎn),一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒有明確界定,很多基于大數(shù)據(jù)的分析都未考慮到其中涉及的個(gè)體隱私問題。
許多企業(yè)對大數(shù)據(jù)的認(rèn)知程度不同,因此致使企業(yè)在大數(shù)據(jù)管理和運(yùn)營中會(huì)出現(xiàn)不妥之處,安全防護(hù)手段的更新升級速度無法跟上數(shù)據(jù)量非線性增長的步伐,就會(huì)暴露大數(shù)據(jù)安全防護(hù)的漏洞。
大數(shù)據(jù)技術(shù)很容易成為黑客的攻擊手段,在企業(yè)用數(shù)據(jù)挖掘和數(shù)據(jù)分析等大數(shù)據(jù)技術(shù)獲取商業(yè)價(jià)值的同時(shí),黑客也在利用這些大數(shù)據(jù)技術(shù)向企業(yè)發(fā)起攻擊。黑客會(huì)大限度地收集更多有用信息。
傳統(tǒng)的檢測是基于單個(gè)時(shí)間點(diǎn)進(jìn)行的基于威脅特征的實(shí)時(shí)匹配檢測,而高級可持續(xù)攻擊是一個(gè)實(shí)施過程,無法被實(shí)時(shí)檢測。此外,大數(shù)據(jù)的價(jià)值低密度性,使得安全分析工具很難聚焦在價(jià)值點(diǎn)上,黑客可以將攻擊隱藏在大數(shù)據(jù)中。
(6)切忌一哄而上
中國工程院院士鄔賀銓曾建議,中國發(fā)展大數(shù)據(jù)需要盡快制定信息保護(hù)法與信息公開法,既要鼓勵(lì)面向群體而且服務(wù)于社會(huì)的數(shù)據(jù)挖掘,又要防止針對個(gè)體侵犯隱私的行為,既要提倡數(shù)據(jù)共享又要防止數(shù)據(jù)被濫用。
(7)國內(nèi)大數(shù)據(jù)發(fā)展
在制造行業(yè),企業(yè)通過對網(wǎng)上大數(shù)據(jù)分析了解客戶需求和掌握市場動(dòng)向,并對大數(shù)據(jù)進(jìn)行分析后,就可以有效實(shí)現(xiàn)對采購和合理庫存量的管理,大大減少因盲目進(jìn)貨而導(dǎo)致銷售損失,大數(shù)據(jù)是一個(gè)應(yīng)用驅(qū)動(dòng)性很強(qiáng)的服務(wù),其標(biāo)準(zhǔn)和產(chǎn)業(yè)格局尚未形成,這是我國跨越發(fā)展的機(jī)會(huì),但切忌一哄而起。
大數(shù)據(jù)處理技術(shù)怎么學(xué)習(xí)呢?
首先我們要學(xué)習(xí)Python語言和Linux操作系統(tǒng),這兩個(gè)是學(xué)習(xí)大數(shù)據(jù)的基礎(chǔ),學(xué)習(xí)的順序不分前后。
Python:Python 的排名從去年開始就借助人工智能持續(xù)上升,現(xiàn)在它已經(jīng)成為了語言排行第一名。
從學(xué)習(xí)難易度來看,作為一個(gè)為“優(yōu)雅”而生的語言,Python語法簡捷而清晰,對底層做了很好的封裝,是一種很容易上手的高級語言。在一些習(xí)慣于底層程序開發(fā)的“硬核”程序員眼里,Python簡直就是一種“偽代碼”。
在大數(shù)據(jù)和數(shù)據(jù)科學(xué)領(lǐng)域,Python幾乎是萬能的,任何集群架構(gòu)軟件都支持Python,Python也有很豐富的數(shù)據(jù)科學(xué)庫,所以Python不得不學(xué)。
Linux:因?yàn)榇髷?shù)據(jù)相關(guān)軟件都是在Linux上運(yùn)行的,所以Linux要學(xué)習(xí)的扎實(shí)一些,學(xué)好Linux對你快速掌握大數(shù)據(jù)相關(guān)技術(shù)會(huì)有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數(shù)據(jù)軟件的運(yùn)行環(huán)境和網(wǎng)絡(luò)環(huán)境配置,能少踩很多坑,學(xué)會(huì)shell就能看懂腳本這樣能更容易理解和配置大數(shù)據(jù)集群。還能讓你對以后新出的大數(shù)據(jù)技術(shù)學(xué)習(xí)起來更快。
好說完基礎(chǔ)了,再說說還需要學(xué)習(xí)哪些大數(shù)據(jù)技術(shù),可以按我寫的順序?qū)W下去。
Hadoop:這是現(xiàn)在流行的大數(shù)據(jù)處理平臺幾乎已經(jīng)成為大數(shù)據(jù)的代名詞,所以這個(gè)是必學(xué)的。
Hadoop里面包括幾個(gè)組件HDFS、MapReduce和YARN,HDFS是存儲(chǔ)數(shù)據(jù)的地方就像我們電腦的硬盤一樣文件都存儲(chǔ)在這個(gè)上面,MapReduce是對數(shù)據(jù)進(jìn)行處理計(jì)算的,它有個(gè)特點(diǎn)就是不管多大的數(shù)據(jù)只要給它時(shí)間它就能把數(shù)據(jù)跑完,但是時(shí)間可能不是很快所以它叫數(shù)據(jù)的批處理。
YARN是體現(xiàn)Hadoop平臺概念的重要組件有了它大數(shù)據(jù)生態(tài)體系的其它軟件就能在hadoop上運(yùn)行了,這樣就能更好的利用HDFS大存儲(chǔ)的優(yōu)勢和節(jié)省更多的資源比如我們就不用再單獨(dú)建一個(gè)spark的集群了,讓它直接跑在現(xiàn)有的hadoop yarn上面就可以了。
其實(shí)把Hadoop的這些組件學(xué)明白你就能做大數(shù)據(jù)的處理了,只不過你現(xiàn)在還可能對”大數(shù)據(jù)”到底有多大還沒有個(gè)太清楚的概念,聽我的別糾結(jié)這個(gè)。
等以后你工作了就會(huì)有很多場景遇到幾十T/幾百T大規(guī)模的數(shù)據(jù),到時(shí)候你就不會(huì)覺得數(shù)據(jù)大真好,越大越有你頭疼的。
當(dāng)然別怕處理這么大規(guī)模的數(shù)據(jù),因?yàn)檫@是你的價(jià)值所在,讓那些個(gè)搞Javaee的php的html5的和DBA的羨慕去吧。
第一階段學(xué)習(xí)結(jié)束,掌握上述知識,就可以從事大數(shù)據(jù)方面的工作了。
Zookeeper:這是個(gè)萬金油,安裝Hadoop的HA的時(shí)候就會(huì)用到它,以后的Hbase也會(huì)用到它。
它一般用來存放一些相互協(xié)作的信息,這些信息比較小一般不會(huì)超過1M,都是使用它的軟件對它有依賴,對于我們個(gè)人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學(xué)習(xí)完大數(shù)據(jù)的處理了,接下來學(xué)習(xí)學(xué)習(xí)小數(shù)據(jù)的處理工具mysql數(shù)據(jù)庫,因?yàn)橐粫?huì)裝hive的時(shí)候要用到,mysql需要掌握到什么層度那?
你能在Linux上把它安裝好,運(yùn)行起來,會(huì)配置簡單的權(quán)限,修改root的密碼,創(chuàng)建數(shù)據(jù)庫。
這里主要的是學(xué)習(xí)SQL的語法,因?yàn)閔ive的語法和這個(gè)非常相似。
Sqoop:這個(gè)是用于把Mysql里的數(shù)據(jù)導(dǎo)入到Hadoop里的。
當(dāng)然你也可以不用這個(gè),直接把Mysql數(shù)據(jù)表導(dǎo)出成文件再放到HDFS上也是一樣的,當(dāng)然生產(chǎn)環(huán)境中使用要注意Mysql的壓力。
Hive:這個(gè)東西對于會(huì)SQL語法的來說就是神器,它能讓你處理大數(shù)據(jù)變的很簡單,不會(huì)再費(fèi)勁的編寫MapReduce程序。
有的人說Pig那?它和Pig差不多掌握一個(gè)就可以了。
Oozie:既然學(xué)會(huì)Hive了,我相信你一定需要這個(gè)東西,它可以幫你管理你的Hive或者M(jìn)apReduce、Spark腳本,還能檢查你的程序是否執(zhí)行正確,出錯(cuò)了給你發(fā)報(bào)警并能幫你重試程序,重要的是還能幫你配置任務(wù)的依賴關(guān)系。
我相信你一定會(huì)喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
第二階段學(xué)習(xí)結(jié)束,如果能全部掌握,你就是專業(yè)的大數(shù)據(jù)開發(fā)工程師了。
后續(xù)提高:大數(shù)據(jù)結(jié)合人工智能達(dá)到真正的數(shù)據(jù)科學(xué)家,打通了數(shù)據(jù)科學(xué)的任督二脈,在公司是技術(shù)專家級別,這時(shí)候月薪再次翻倍且成為公司核心骨干。
機(jī)器學(xué)習(xí)(Machine Learning, ML):是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。機(jī)器學(xué)習(xí)的算法基本比較固定了,學(xué)習(xí)起來相對容易。
深度學(xué)習(xí)(Deep Learning, DL):深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,近幾年發(fā)展迅猛。深度學(xué)習(xí)應(yīng)用的實(shí)例有AlphaGo、人臉識別、圖像檢測等。是國內(nèi)外稀缺人才,但是深度學(xué)習(xí)相對比較難,算法更新也比較快,需要跟隨有經(jīng)驗(yàn)的老師學(xué)習(xí)。
第三階段是理想狀態(tài),算是終極目標(biāo)吧。畢竟技術(shù)一直在進(jìn)步,誰也無法預(yù)測大數(shù)據(jù)以后的發(fā)展。