當前位置:首頁 > 百科知識 > 通信 > 正文

大數據

大數據(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的資訊。 大數據的4V特點:Volume、Velocity、Variety、Veracity。 “大數據”是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基于云計算的數據處理與應用模式,通過數據的整合共享,交叉復用,形成的智力資源和知識服務能力。

簡介

  “大數據”作為時下最火熱的IT行業(yè)的詞匯,隨之數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數量的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。
  早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪
  著云臺大數據(4張)潮的華彩樂章”。不過,大約從2009年開始,“大數據”才成為互聯(lián)網信息技術行業(yè)的流行詞匯。美國互聯(lián)網數據中心指出,互聯(lián)網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又并非單純指人們在互聯(lián)網上發(fā)布的信息,全世界的工業(yè)設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。
  大數據技術的戰(zhàn)略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業(yè)化處理。換言之,如果把大數據比作一種產業(yè),那么這種產業(yè)實現(xiàn)盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現(xiàn)數據的“增值”。且中國物聯(lián)網校企聯(lián)盟認為,物聯(lián)網的發(fā)展離不開大數據,依靠大數據提供足夠有利的資源。
  隨著云時代的來臨,大數據(Bigdata)也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據(Bigdata)通常用來形容一個公司創(chuàng)造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯(lián)系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
  大數據分析相比于傳統(tǒng)的數據倉庫應用,具有數據量大、查詢分析復雜等特點?!?span id="tutnuwn" class='hrefStyle'>計算機學報》刊登的“架構大數據:挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數據分析平臺需要具備的幾個重要特性,對當前的主流實現(xiàn)平臺———并行數據庫、MapReduce及基于兩者的混合架構進行了分析歸納,指出了各自的優(yōu)勢及不足,同時也對各個方向的研究現(xiàn)狀及作者在大數據分析方面的努力進行了介紹,對未來研究做了展望[3]。
  對于“大數據”(Bigdata)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
  大數據”這個術語最早期的引用可追溯到apacheorg的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。隨著谷歌MapReduce和GoogleFileSystem(GFS)的發(fā)布,大數據不再僅用來描述大量的數據,還涵蓋了處理數據的速度。
  從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業(yè)的潛力。
  大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規(guī)劃建設運營管理的系統(tǒng)工程;大數據科學關注大數據網絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數據的規(guī)律及其與自然和社會活動之間的關系。
  大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業(yè)價值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數據挖掘技術有著本質的不同。業(yè)界將其歸納為4個“V”——Volume,Variety,Value,Velocity。
  物聯(lián)網、云計算、移動互聯(lián)網、車聯(lián)網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。

技術

  大數據技術將被設計用于在成本可承受(economically)的條件下,通過非常快速(velocity)的采集、發(fā)現(xiàn)和分析,從大量化(volumes)、多類別(variety)的數據中提取價值(value),將是IT 領域新一代的技術與架構。企業(yè)用以分析的數據越全面,分析的結果就越接近于真實。大數據分析意味著企業(yè)能夠從這些新的數據中獲取新的洞察力,并將其與已知業(yè)務的各個細節(jié)相融合。
一些相關技術
  分析技術:
  數據處理:自然語言處理技術
  統(tǒng)計和分析:A/B test; top N排行榜;地域占比;文本情感分析
  數據挖掘:關聯(lián)規(guī)則分析;分類;聚類
  模型預測:預測模型;機器學習;建模仿真
  大數據技術:
  數據采集:ETL工具
  數據存?。宏P系數據庫;NoSQL;SQL等
  基礎架構支持:云存儲;分布式文件系統(tǒng)等
  計算結果展現(xiàn):云計算;標簽云;關系圖等
  存儲
  結構化數據:
  海量數據的查詢、統(tǒng)計、更新等操作效率低
  非結構化數據:
  圖片、視頻、word、pdf、ppt等文件存儲
  不利于檢索、查詢和存儲
  半結構化數據:
  轉換為結構化存儲
  按照非結構化存儲
  解決方案:
  Hadoop(MapReduce技術)
  流計算(twitter的storm和yahoo!的S4)

大數據的應用

企業(yè)
IBM:
  IBM大數據提供的服務包括數據分析,文本分析,藍色云杉(混搭供電合作的網絡平臺);業(yè)務事件處理;IBM Mashup Center的計量,監(jiān)測,和商業(yè)化服務(MMMS)
  IBM的大數據產品組合中的最新系列產品的InfoSphere bigInsights,基于Apache Hadoop。
  該產品組合包括:
  打包的Apache Hadoop的軟件和服務,代號是bigInsights核心,用于開始大數據分析
  軟件被稱為bigsheet,軟件目的是幫助從大量數據中輕松、簡單、直觀的提取、批注相關信息
  為金融,風險管理,媒體和娛樂等行業(yè)量身定做的行業(yè)解決方案
微軟:
  2011年1月與惠普(具體而言是HP數據庫綜合應用部門) 合作目標是開發(fā)了一系列能夠提升生產力和提高決策速度的設備。
EMC
  EMC 斬獲了紐交所和Nasdaq;
  大數據解決方案已包括40多個產品。
Oracle:
  Oracle大數據機與Oracle Exalogic中間件云服務器、Oracle Exadata數據庫云服務器以及Oracle Exalytics商務智能云服務器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產品組合。
政府  
政府職能變革
  重視應用大數據技術,盤活各地云計算中心資產:把原來大規(guī)模投資產業(yè)園、物聯(lián)網產業(yè)園從政績工程,改造成智慧工程;
  在安防領域,應用大數據技術,提高應急處置能力和安全防范能力;
  在民生領域,應用大數據技術,提升服務能力和運作效率,以及個性化的服務,比如醫(yī)療、衛(wèi)生、教育等部門;
  解決在金融,電信領域等中數據分析的問題:一直得到得極大的重視,但受困于存儲能力和計算能力的限制,只局限在交易數型數據的統(tǒng)計分析;
 


內容來自百科網