行(xíng)業(yè)動态
盤點:十大(dà)最熱(rè)門(mén)的(de)大(dà)數(shù)據技βσ♥(jì)術(shù)

   


    随著₩ φ(zhe)大(dà)數(shù)據分(fēn)析市(shì)場(chǎng)↑®快(kuài)速滲透到(dào)各行(xí✔∞'ng)各業(yè),哪些(xiē)大(dà)數(shù)據技(jì)術<→•(shù)是(shì)剛需?哪些(xiē)技(jì)術(shù)有(yǒu)極φ&大(dà)的(de)潛在價值?根據弗雷斯特研究• 公司發布的(de)指數(shù),這(zhè)裡(γ→lǐ)給出最熱(rè)的(de)十個(gè)大(dà)數(s§♥hù)據技(jì)術(shù)。


1、預測分(fēn)析

 

預測分(fēn)析是(shì)一(yī)種統計(÷<✔jì)或數(shù)據挖掘解決方案,包含可(kě)在結♣₽構化(huà)和(hé)非結構化(huà)數(shù)據中‌≈±☆使用(yòng)以确定未來(lái)結果的(d ± e)算(suàn)法和(hé)技(jì)術α&≈(shù)。可(kě)為(wèi)預測、優化(huà)♣σ₽、預報(bào)和(hé)模拟等許多(duō← )其他(tā)用(yòng)途而部署。随著(zhe)現≈ ♣(xiàn)在硬件(jiàn)和(hé)軟件(jiàn)解決方案§δα←的(de)成熟,許多(duō)公司利用(yòng)大(dà)數(shù) ←據技(jì)術(shù)來(lái)收集海(hǎi)量數(shù)據、訓練γ§←γ模型、優化(huà)模型,并發布預測模型來(lái)提高(gā÷≤≈♣o)業(yè)務水(shuǐ)平或者避免風(fēn&£g)險;當前最流行(xíng)的(de)預測分(fēn)析‌>₩↔工(gōng)具當屬IBM公司的(de)SPSSπ​,SPSS這(zhè)個(gè)軟件(jiàn)大(dà)家(jiā)都(d&₩↕™ōu)已經很(hěn)熟悉了(le),它集數(s♠β₹hù)據錄入、整理(lǐ)、分(fēn)析÷π功能(néng)于一(yī)身(shēn)。用(yòng)戶可α÷(kě)以根據實際需要(yào)和(hé)計(jì)算(suàn)&γ¥機(jī)的(de)功能(néng)選擇模塊♠§,SPSS的(de)分(fēn)析結果清晰、直×÷觀、易學易用(yòng),而且可(kě)以直接讀(dπ↓♠ú)取EXCEL及DBF數(shù)據文(£β♠ wén)件(jiàn),現(xiàn)已推廣到(d₽ασ ào)多(duō)種各種操作(zuò)系統的(de)計(jì)算(suà≤π™n)機(jī)上(shàng)。

 

2、NoSQL數(shù)據庫

 

非關系型數(shù)據庫包括Key-value型(•©¶Redis)數(shù)據庫、文(wén)檔型(MonogoDB)數★β(shù)據庫、圖型(Neo4j)數(shù)據庫;雖然NoSQL¶→♣流行(xíng)語火(huǒ)起來(lái)才短(duǎn)短(duǎn)♣α一(yī)年(nián)的(de)時(shí)間(jiān),但(dàn¥α±)是(shì)不(bù)可(kě)否認,現(£∑♠↔xiàn)在已經開(kāi)始了(le)第二代運✔≠‍ε動。盡管早期的(de)堆棧代碼隻能(néng)算(→λsuàn)是(shì)一(yī)種實驗,然而現(xiàn)'α在的(de)系統已經更加的(de)成熟、' 穩定。

 

3、搜索和(hé)認知(zhī)商業(yè)

 

當今時(shí)代大(dà)數(shù)據與分(fēn)析已經發展到(dàoβ$)一(yī)個(gè)新的(de)高(gāo)度,那(nà)就"•(jiù)是(shì)認知(zhī)時(shí)代,認知(zhī)時(€ shí)代不(bù)再是(shì)簡單的(de)數(shù)λ↔¥•據分(fēn)析與展示,它更多(duō)的(de)是(shì)€★€±上(shàng)升到(dào)一(yī)個(gè)₹♣φ¶利用(yòng)數(shù)據來(lái)支撐人(rén)機(jī)交互的♣<(de)一(yī)種模式,例如(rú)前段時(shí)間(jiān)的(ε♥ §de)圍棋大(dà)戰,就(jiù)是(sh&€↕ì)一(yī)個(gè)很(hěn)好(hǎo)的(de)應用(yòng™£)、現(xiàn)已經逐步推廣到(dào)機(jī)器(≈"λφqì)人(rén)的(de)應用(yòng)上(shàng)面,也(yě)就(‍>∏γjiù)是(shì)下(xià)一(yī)↑‍"個(gè)經濟爆發點——人(rén)工(gōng)©<✘智能(néng),互聯網人(rén)都(dōu)比較熟×π✘★悉國(guó)內(nèi)的(de)BAT,以及國(guó)外(wài)的(d±π​←e)apple、google、facebook、IBM、₹ 微(wēi)軟、亞馬遜等等;可(kě)以大(dφ♥à)緻看(kàn)一(yī)下(xià)他(tā)們的(d←₩<®e)商業(yè)布局,未來(lái)全是(shì)往人↑∞(rén)工(gōng)智能(néng)方向發展,當然目前在認知(z¥≥hī)商業(yè)這(zhè)一(yī)塊IBM當屬領頭羊→♦♣,特别是(shì)當前主推的(de)wat≥→λ≠son這(zhè)個(gè)産品,以及取得(de)了(le)€✘φ®非常棒的(de)效果。

 

4、流式分(fēn)析

 

目前流式計(jì)算(suàn)是(shì)業(yè)界>λε研究的(de)一(yī)個(gè)熱(rè)點,最近(jìn®✔© )Twitter、LinkedIn等公司相(xiλ✔← àng)繼開(kāi)源了(le)流式計(jì) ♠$π算(suàn)系統Storm、Kafka等,加上(shàng)Yahoo!之•<¶前開(kāi)源的(de)S4,流式計(jì)算(suàn)研究在互聯₽ε$網領域持續升溫,流式分(fēn)析可(kě)®∏以對(duì)多(duō)個(gè)高(gāo≥φ)吞吐量的(de)數(shù)據源進行(xíng)實時(↕ ​>shí)的(de)清洗、聚合和(hé)分(fēn)析;對(d ☆uì)存在于社交網站(zhàn)、博客、電φ×™(diàn)子(zǐ)郵件(jiàn)、視(shì)頻(pín​←)、新聞、電(diàn)話(huà)記錄、傳輸數(shù)據$₽↕×、電(diàn)子(zǐ)感應器(qì)之中的(de)數(shù)字格式的(γδ<♦de)信息流進行(xíng)快(kuài£≤)速處理(lǐ)并反饋的(de)需求。目前大(dà)數(shù↔​)據流分(fēn)析平台有(yǒu)很(hě§∞≥n)多(duō)、如(rú)開(kāi)源的(de)÷↕spark,以及ibm的(de)streams。

 

5、內(nèi)存數(shù)據結構

 

通(tōng)過動态随機(jī)內(nèi)存訪問(wèn)("®DRAM)、Flash和(hé)SSD等分(fēn)λ€‌π布式存儲系統提供海(hǎi)量數(shù)據的(d☆>e)低(dī)延時(shí)訪問(wèn)和(hé☆∏÷)處理(lǐ);

 

6、分(fēn)布式存儲系統

 

分(fēn)布式存儲是(shì)指存儲節點大(dà)于一(yī)✘¥•÷個(gè)、數(shù)據保存多(duō) ∞"×副本以及高(gāo)性能(néng)的(de)計₽ (jì)算(suàn)網絡;利用(yòng)☆φ↔✘多(duō)台存儲服務器(qì)分(fēn)擔存儲負‌&♥荷,利用(yòng)位置服務器(qì)定位存儲信息,它不(bù)但(d'<☆àn)提高(gāo)了(le)系統的(de)₽€×↓可(kě)靠性、可(kě)用(yòng)性和(hé)存取效率,還 &<↔(hái)易于擴展。當前開(kāi)源的(de)HDFS還(hái)是(s'•≤hì)非常不(bù)錯(cuò),有(yǒu)需要(y∑'ào)的(de)朋(péng)友(yǒu)可(kě)以深入了(lγ÷‍e)解一(yī)下(xià)。

 

7、數(shù)據可(kě)視(shì)化(huà)

 

數(shù)據可(kě)視(shì)化(huà)技(jì)≥§術(shù)是(shì)指對(duì)各類型數(sh✘'ù)據源(包括hadoop上(shàng)的(de)海(hǎi)量數(​'→shù)據以及實時(shí)和(hé)接近(jìn)實時(shí)↑δβ♠的(de)分(fēn)布式數(shù)據)進行(xíng)顯示;當前國♦γ(guó)內(nèi)外(wài)數(shù)據分(fēn≈↓↔✔)析展示的(de)産品很(hěn)多(duō)÷₹☆,如(rú)果是(shì)企業(yè)單位以及政府單位建議(™β ✔yì)使用(yòng)cognos,安全、穩定、功能∏Ω‌(néng)強大(dà)、支持大(dà)↕✔σ≤數(shù)據、非常不(bù)錯(cuò)的(de)↕'選擇。

 

8、數(shù)據整合

 

通(tōng)過亞馬遜彈性MR(EMR)、Hive、Pig、Spark、  ←MapReduce、Couchbase、Hadoop和(hé)MongoD↕α™&B等軟件(jiàn)進行(xíng)業(yè)務數(shù)≠'據整合;

 

9、數(shù)據預處理(lǐ)

 

數(shù)據整合是(shì)指對(duì)數≈♥π>(shù)據源進行(xíng)清洗、裁剪,并共享多(duō)樣化( αhuà)數(shù)據來(lái)加快(kuài)數(shù)據分(fē×>n)析;

 

10、數(shù)據校(xiào)驗

 

對(duì)分(fēn)布式存儲系統和(hé)數♣≈€‌(shù)據庫上(shàng)的(de)海(hǎi)量、高(g$≈Ω§āo)頻(pín)率數(shù)據集進行(xí'≥ng)數(shù)據校(xiào)驗,去(qù)除非法數(shù)據,補全缺€∏₽失。

數(shù)據整合、處理(lǐ)、校(xiào)驗在目前已經統稱為(wèi)∞♦ΩETL,ETL過程可(kě)以把結構化(h÷←'uà)數(shù)據以及非結構化(huà)數(shù)據進行(xíng∞₽☆)清洗、抽取、轉換成你(nǐ)需要(yào)的(de)數(shù ₽♠)據、同時(shí)還(hái)可(kě)以保障數(shù)據的(d₽©e)安全性以及完整性、關于ETL的(de)産品推薦使用(yò♦★®ng)datastage就(jiù)行(xíng)、對(duì)于任何數(shγ↕ù)據源都(dōu)可(kě)以完美(mě€♣i)處理(lǐ)。



分(fēn)享至: