數據|有沒有想過你的數據分析方法可能已經過時?

來源:36大數據作者:謝濤
在擁擠不堪、投資過剩的數據分析市場上 , 供應商為了賣出自己的產品不斷放出煙霧彈 , 想要穿過煙霧看到“真相” , 卻是一大難事 。 以下五點 , 是未來數據分析市場可能的走向 , 僅供參考 。
1. BI遷移到應用程序 在過去的20年里 , 我們見證了一場革命 。 不是一夜之間發生的那種 , 而是逐漸發生的 , 緩慢的 , 可能很多人沒有注意到 。 BI(商業智能)正走向死亡 。 或者更準確地說 , BI正在進行著徹頭徹尾的改變 。
每年 , 用戶都在通過他們使用的應用程序——比如HubSpot、SalesForce和MailChimp——進行更多的分析 。 分析正在遷移到業務應用程序的結構中 。
從本質上講 , 業務應用程序正在獲取它們自己的分析接口 , 根據它們的數據和用例進行定制 。 這種集成和自定義使得其分析接口比深奧的、復雜的通用BI更容易被用戶接受 。 隨著B2B應用程序開始在數據智能產品上展開競爭 , 這一趨勢將會繼續下去 。
2. 編譯器超越分析引擎 歷史上 , 數據分析有兩種提供方式:通過預計算 , 或者通過分析引擎 。
分析引擎 , 如Spark和Tableau的數據引擎 , 負責執行所需的計算 , 以回答關于組織數據的關鍵問題 。
現在 , 這個領域出現了一個新的玩家:分析編譯器 。 分析編譯器可以靈活地將計算部署到不同的基礎設施 。 分析編譯器的例子包括現在大火的TensorFlow , 它可以將計算部署到GPU或CPU等 。
編譯器比分析引擎靈活得多 , 因為它們可以進行數據處理 , 而且我們可以將它們進行轉換 , 以在不同的基礎設施中運行(在數據庫中 , 在Spark中 , 在GPU中 , 等等) 。 在理論上 , 編譯器也可以生成比任何解釋引擎都快的工作流 。
甚至Spark也一直在獲取基本的編譯工具 , 這無疑是編譯器在此駐留的標志 , 并且可能最終會使遺留的純計算引擎相形見絀 。
3. ETL多樣化 很少有一個術語能比“ETL”(提取轉換加載)更讓大佬們頭疼 。 ETL堆積了大量不完整的、重復的、不相關的數據 , 像污水一樣被排放出來 , 清理干凈 , 然后被推到一個可以處理這些數據的地方 。
ETL是現代、敏捷和數據驅動等關鍵詞的對立面 。 ETL意味著不斷重復的數據 , 無數的延遲 , 以及高額的費用 。 它無法回答重要的問題 。
為了讓ETL變得更加靈活 , 行業內已經開發出了各種各樣的替代方案 。 這些解決方案包括高級的ETL工具——使ETL更容易進入Hadoop或數據倉庫 , 到流ETL解決方案 , 再到利用機器學習交叉引用和刪除重復數據的ETL解決方案 。
另一個非常有趣的技術類別包括像Dremio和Xcalar這樣的工具 , 它們將ETL重構為提取-加載-轉換(或ELT) 。 本質上 , 它們將轉換的步驟推到最后 , 因此不必再預先進行提取、加載或轉換 。
從歷史上看 , ELT的速度很慢 , 但這些下一代解決方案通過動態調整、索引和緩存常見的轉換來快速地進行拼寫 。 這提供了傳統ETL的性能 , 同時具有后期轉換的靈活性 。
不管你如何看待它 , ETL正在經歷著戲劇性的演變 , 這將使組織能夠比以往更容易地快速地利用數據 , 而無需耗費大量時間和昂貴的前期投入 。

數據|有沒有想過你的數據分析方法可能已經過時?
文章圖片

4. 數據倉庫開放 大型組織的問題多數在于無法從專注于精心設計的分析 。 大多數公司甚至無法合計和計算他們有多少數據 。 不是因為計數很困難 , 而是因為一個大型組織中的數據一般分散在萬個數據豎井中 。
不過由于云(包括API革命和管理數據解決方案)和ETL最近的進展 , 使得組織以結構化的方式訪問更多的數據變得比以往任何時候都要容易 。