2015年9月26日 星期六

2015 2016 左永安顧問 資料生態體系 Spark、Mahout 從數據蒐集、傳輸、儲存、運算至應用 常提到4V:Volume大量、Velocity即時性、Variety多樣化和Veracity真實性硬體儲存技術、資料庫系統管理、數據處理與傳輸效率、結構和非結構化數據整合、資料視覺化第5個V─Value價值,為什麼要分析資料?希望達到什麼目的?掌握產業資料應用的價值是相當關鍵的思維Qlik收購Datamarket,推出數據即服務(Data as a Service)的雲端應用平台

 工研院IEK ITIS計畫產業分析師崔聖如
當越來越多廠商或機構,加入提供資料或購買資料的生態鏈,產生的共享價值與綜效將會飛速成長,衍生的新型商業模式將呈現更多樣化的面貌,進一步將形成資料生態體系,除了談4V(Volume大量、Velocity即時性、Variety多樣化和Veracity真實性)之外,還有第5個V─Value價值,更是引導整個大數據計畫成功的關鍵。
巨量資料改變人們探索世界的方式,甚至在幾分鐘內,就可能翻轉對事物的看法。在巨量資料世界,討論與應用更多的是「相關性」,相關性的概念不是因為有A才會有B的發生,而是這些因素有相互影響的關係,甚至原本看似不相干的因子,也可能扮演重要角色。
例如,Twitter分析社群輿論,發現民眾討論米價的訊息產生量,與實際糧食、燃油價格漲跌有正相關性;Meteolytix整合外部天氣數據,協助零售業者預測未來銷售數量;甚或運用跨國匯款交易資訊預測各國GDP等。
許多在傳統統計世界不可能相連的因子,在巨量資料的時代皆可能充分的應用與展開。
以往談Big Data,常提到4V:Volume大量、Velocity即時性、Variety多樣化和Veracity真實性,背後皆有重要的技術議題,例如硬體儲存技術、資料庫系統管理、數據處理與傳輸效率、結構和非結構化數據整合、資料視覺化等,這些議題都需要多方技術廠商提供解決方案。
鼓勵從下而上的創新應用
較少人談到第5個V─Value價值,為什麼要分析資料?希望達到什麼目的?掌握產業資料應用的價值是相當關鍵的思維,甚至是引導整個大數據計畫成功的關鍵。
巨量資料應用目的,可分為兩個面向:
面向1.提升內部營運效率
以目前產生較大規模數據的應用領域,如智慧製造、智慧商務等,企業多以提升業務效率、降低運營成本為目標,大部分採用的資料為內部數據,系統需符合內部應用、有高度客制化的需求,計畫執行通常需有較高層級支持,從上而下推動巨量資料專案。
例如,以先進製造為主的德國,預計5年內將有8成製造業者導入數位化的聯網系統,透過感測裝置、數據應用,企業本身預估將提升18%的營運效率、每年降低2.6%的製造成本,近9成的廠商認為,數據整合與分析為企業導入系統的核心能力。
面向2.開創新興商機
善用大量外部數據,透過資料授權、資料加值等模式,與第三方單位建立互惠的合作關係,開創新的營收來源。
例如,Qlik收購Datamarket,推出數據即服務(Data as a Service)的雲端應用平台,提供簡易串接與分析的數據服務,客戶可購買或訂閱所需的外部數據,包括天氣、經濟指數、貨幣匯率等,整合企業內部數據,擬定未來商業策略,至今已超過200家數據提供商和100,000以上的資料集。
資料生態體系有趣的地方是,當越多廠商或機構加入提供資料或購買資料的生態鏈,產生的共享價值與綜效將會飛速成長,衍生的新型商業模式將呈現更多樣化的面貌。
這2大面向不一定為單一企業的應用方向,可能同時存在於一家公司,透過不同的應用領域和數據形態,發展不同策略的計畫專案。關鍵在於,企業需對資料應用有清楚的目標與認知,透過內部培育和外部資源,展開符合目標需求之專案規劃。
在巨量資料時代,許多商機是企業未曾想見的,應多鼓勵從下而上的創新應用構想,在不斷嘗試中找到資料應用的價值。
資料供應鏈的協同合作
資料分析應用分為幾個階段,從數據蒐集、傳輸、儲存、運算至應用,每階段皆有不同的導入邏輯,整體供應鏈也需有多方廠商支援與合作。數據來源包含行動裝置、各個感測設備、社群媒體、影音圖資等各種結構化與非結構化資訊,經由通訊設備傳輸到系統進行處理。
在儲存端,以往企業慣於把數據存在內部資料庫,需要時再進行批次運算,耗時且費用高。在巨量資料領域,兼具橫向擴充和高度彈性的雲端分散式檔案系統(Distributed File System),將大量數據分割成數個檔案同時進行存取與備份,並在儲存結點上進行資料分析,是重要的技術趨勢。
例如,被各組織廣為採用的開放軟體Apache Hadoop,為能夠儲存並處理大量資料的雲端平台,同時解決資料備份、系統擴張和分析等問題,大量節省企業資料處理的時間和成本。
許多新興資料分析工具,如Spark、Mahout等,具備高度效能與彈性,使企業應用大數據有更佳的掌握度。
資料視覺化(Data Visualization)也是重要的表現形式,如國外廠商Tableau、QlikView等,提供資料視覺化軟體,讓不同背景的人互相溝通,共同達到目的,為資料應用重要的一環。
最後以資料分析成果趨動商業決策,如個人化搜尋與推薦、顧客洞察、製造排程優化等,針對各領域的產業知識加值應用,提升企業經營效能,為數據應用的最後一哩路。
整體資料鏈,需各階段的人才協同合作,不只一味追求技術領先,而是需在過程不斷檢視採用的解決方案是否符合計畫需求。