文章插圖

文章插圖
以下是淘寶云梯分布式計算平臺的整體架構,由數據分析網整理自網絡資料,供大家學習參考 。
一、系統架構
1、系統整體架構
數據流向從上到下,從各數據源、Gateway、云梯、到各應用場景 。
2、淘寶云計算介紹
主要由數據源、數據平臺、數據集群三部分構成
二、數據同步方案
1、數據同步方案——概覽
2、數據同步方案—— 實時同步VS非實時同步
3、數據同步方案—— TimeTunnel2 介紹
TimeTunnel是一個實時數據傳輸平臺,TimeTunnel的主要功能就是實時完成海量數據的交換,因此TimeTunnel的業務邏輯主 要也就有兩個:一個是發布數據,將數據發送到TimeTunnel;一個是訂閱數據,從TimeTunnel讀取自己關心的數據 。
TimeTunnel作為一個實時數據傳輸平臺具有以下特點:
高效性:單點1k數據可以到4萬TPS高可靠性:M-S模式時保證數據不丟失
高可用性:單點故障不影響整個集群服務
順序性:當沒有故障發生時,保證所有傳輸都
是順序的,或者說一次連接內的傳輸是順序的 。
4、數據同步方案—— Dbsync 介紹
dbsync是一個用于同步服務庫數據到HDFS的產品,通過分析數據庫服務器的log文件來提取相應的數據庫動作,進而達到數據庫到HADOOP的數據同步,供相關部門提取增量數據 。
Dbsync實時同步性能
記錄大小 速度
2K 4M/s
9K 10M/s
應用場景
數據量 800G
00:10分備庫打開:
非實時同步完成時間0:55
實時同步完成時間0:25
5、數據同步方案—— DataX 介紹
DataX是一個在異構的數據容器之間交換數據的工具 。用于在任意的數據處理系統(RDBMS/NoSql/FS)之間交換數據 。
Framework+plugin,Framework處理了高速數據交換的大部分問題,插件提供對數據處理系統的訪問 。
運行模式 :stand-alone / on hadoop
【云閃付在淘寶怎么用法 淘寶怎樣使用云閃付】Webui + cui 基于元數據的高效配置,例子:表A sharding為32個庫,1024張表,配置時間<1 min
DataX部分性能數據:
三、調度系統
1、調度系統——生產率銀彈
2、調度系統——模塊/子系統
3、調度系統——任務觸發方式
Flow control/Data Trigger
Time Trigger
4、調度系統——調度方式
5、調度系統——什么是Gateway?
Gateway:參與天網調度的資源
? 功能:
– 數據同步(dataX, DBSync,TimeTunnel2…)
– 數據上傳/下載(hadoop fs –put/get/getmerge)
– 日志收集
– Hive sql語句提交運行
– MapReduce程序提交運行
– 集群間數據同步(hadoop distcp)
6、調度系統—— Gateway規模及規劃
用于生產的Gateway約30臺,由天網調度統一進行任務
分發,并行控制 。
數據同步(dataX, DBSync,TimeTunnel2…)
數據上傳/下載(hadoop fs –put/get/getmerge)
日志收集
Hive sql語句提交運行
MapReduce程序提交運行
集群間數據同步(hadoop distcp)
7、調度系統——gateway standardization
8、調度系統——Dynamic LB實現
9、調度系統——優先級策略(實現)
10、調度系統——優先級策略(意義)
11、調度系統——監控全景
四、元數據應用
面對上面的問題,靠經驗豐富的架構師?還是靠智能的分析系統?
1、挖掘元數據金礦
2、基于元數據的開發平臺
自動生成代碼/集成開發平臺
自動定位輸入/自動代碼
優化/自動部署/自動調度
配對分析/熱點分
析/字段變更影
響/轉換軌跡
元數據
3、基于元數據的分析平臺——運行分析系統
4、基于元數據的分析平臺——分析策略概覽
5、基于元數據的分析平臺——運行數據收集
6、基于元數據的分析平臺——宏觀分析策略
7、基于元數據的分析平臺——定位系統瓶頸
每個環節的吞吐能力都是動態變化的 。
在某個特定時間區間內,整個系統的吞吐能力由吞吐能力最小的一個環節決定 。
如果需要發現系統的短板,需要對每個環節的吞吐曲線繪制出來 。
針對系統的短板進行重點優化 。
對于吞吐能力抖動比較大的環節,需要在前面設置隊列進行緩沖 。
瓶頸定位方法:
1 每個環節的吞吐曲線
2 兩個環節之前緩沖隊列的狀態曲線
3 統一單位到task級別
8、基于元數據的分析平臺——最值得優化的任務
從關鍵路徑的角度考慮,任務A運行時間變化,對系統對影響可以用下圖中陰影的面積來計算,它取決于下面
幾個因素:
A 任務的當前運行時間——決定了當前位置的曲線斜率 。
B 任務在幾個葉子節點的關鍵路徑上——決定了當前位置的曲線斜率 。
C 其它關聯任務的運行時間——決定A何時會離開某個關鍵路徑,也就是決定了斜率的斜率 。
最值得優化的任務:
以下三項評分中綜合評分最高
1 運行時間長
2 同時處于多個關鍵路徑
3 孔隙度大
出處:數據分析網整理自互聯網分享資料《淘寶云梯分布式計算平臺整體架構》
- 水移畫在使用過程中應注意什么?
- 在哪里可以查到軟件著作權的申請內容 軟件著作權登記證書查詢
- 懷孕胎兒偏小吃什么補
- 豬肉長蟲能吃嗎
- dns解析速度測試 dns速度在線測試
- 媽媽你在哪兒,哪兒就是最快樂的地方 媽媽你在哪兒小班教案
- 云效平臺用的多嗎 云效使用流程
- itunes下載的固件在什么位置 蘋果itunes固件在哪
- 手機如何進入淘寶客 淘寶客的入口在哪里進入
- 華為電腦的軟件商店在哪里
