什么是數據庫維度? 怎么理解?怎么用?做什么用的? 能否通俗易懂的說明 。謝謝 。
舉個簡單例子:
就拿excel表格來說,作為單一的工作表,就包含二維(行和列),而一個excel文件,通常包含多個工作表,打開excel文件時,在下方顯示的“sheet1、sheet2”這些工作表頁列,就是第三維 。
excel是最簡單的數據庫應用,一個xlsx文件只有三維,但你可以用若干個xlsx文件來組成一個項目,這些文件序列,你可以視為第四維 。
然后,你還可以把一組組xlsx文件放在一個個目錄中,那么這些目錄序列,你可以視為第五維 。
再往上,你還可以設置更上一級目錄,那就是第六維……
反正在excel中,任何一個單元格,都可以調用存儲在本地電腦(甚至是網絡電腦)任何地方的、任何一個excel文件中的、任何一個工作表的、任何一個單元格內容,所以說,雖然是一大堆的文件,你也可以當做是一個數據庫來處理,只是不那么方便 。
……
在數據庫中,單一的數據庫就能包含很多很多維,你也可以把這些維,當做樹狀目錄的結構來理解,也可以當做一堆堆的xlsx文件集合來理解 。
磁盤的存儲結構(不管是fat還是ntfs,還是linux或os或別的什么磁盤格式),都是一種大型的、多維的數據庫,分區是一個維度,目錄是一個維度,每一檔下級目錄又是一個維度 。文件是一個維度,文件中的章節行段也是維度……
數學中的維度概念,和通常意義上的空間維度,是兩回事 。
空間維度可以用數學來解釋,但數學維度,三維以上你就無法用空間來顯示 。
但在數據庫中,三維只是基本操作 。
……
用excel來舉例,已經是我能找到的最容易理解的方案 。
我真正理解數據庫維度時,是從數組開始的,當時使用一個很簡陋的編程軟件,他不提供數據庫建立和訪問,數組的維度也有限,還需要自己建立多維存儲文件,并且只支持文本格式 。
文本格式中,使用【】標記數組維度,【】中間的標識符可以自定義,通過各種不同的標識符來延伸維度……做著做著,我忽然間就領悟到什么叫數據庫、什么叫維度,如果不考慮執行效率的話,用一個文本文件,就能模擬出一個硬盤來……
數據質量與數據質量八個維度指標
數據質量與數據質量八個維度指標
數據的質量直接影響著數據的價值,并且直接影響著數據分析的結果以及我們以此做出的決策的質量 。質量不高的數據不僅僅是數據本身的問題,還會影響著企業經營管理決策;錯誤的數據還不如沒有數據,因為沒有數據時,我們還會基于經驗和基于常識的判斷來做出不見得是錯誤的決策,而錯誤的數據會引導我們做出錯誤的決策 。因此數據質量是企業經營管理數據治理的關鍵所在 。
數據的質量可以從八個方面進行衡量,每個維度都從一個側面來反映數據的品相 。八個維度分別是:準確性、真實性、完整性、全面性、及時性、即時性、精確性和關聯性 。
我們在比較兩個數據集的品相的時候往往采用這種圖形表示 。比如說,常規來講內部數據采集的準確性、真實性、完整性高,而全面性、及時性、即時性、精確性和關聯性方面取決于企業內部對數據的重視程度以及采用的技術手段的先進性有關;外部數據集,比如說微博數據、互聯網媒體數據等,其全面性、及時性和即時性都可以通過技術手段,如網絡爬蟲等得到提高,但在準確性、真實性、精確性上難以保證,也難以控制,在關聯性方面取決于數據采集和挖掘的相關技術 。
我們也可以用這個模型來衡量公司內部各個職能部門數據的品相 。下圖是個示意,通過數據質量8大指標的評價,我們可以對企業內部數據治理有針對性地采取措施去提高企業的數據質量 。
數據的準確性
數據的準確性(Accuracy)是指數據采集值或者觀測值和真實值之間的接近程度,也叫做誤差值,誤差越大,準確度越低 。數據的準確性由數據的采集方法決定的 。
數據的精確性
數據的精確性(Precision)是指對同一對象的觀測數據在重復測量時所得到不同數據間的接近程度 。精確性,也可以叫精準性 。精確性與我們數據采集的精度有關系 。精度高,要求數據采集的粒度越細,誤差的容忍程度越低 。
測量人的身高,我們可以精確到厘米,多次測量差異只會在厘米級別;測量北京到上海的距離,我們精確到公里,多次測量結果間的差異會在公里級別;采用游標卡尺測量一個零件的厚度,可以精確到1/50毫米,多次測量的結果間的誤差也只會在1/50毫米間 。采用的測量方法和手段直接影響著數據的精確性 。
數據的真實性
數據的真實性,也叫數據的正確性(Rightness) 。數據的正確性取決于數據采集過程的可控程度,可控程度高,可追溯情況好,數據的真實性容易得到保障,而可控程度低或者無法追溯,數據造假后無法追溯,則真實性難以保證 。
為了提高數據的真實性,采用無人進行過程干涉的智能終端直接采集數據,能夠更好地保證所采集數據的真實性,減少人為干預,減少數據造假,從而讓數據更加正確地反應客觀事物 。
數據的及時性
數據的及時性(In-time)就是數據能否在需要的時候得到保證 。我們月初會對上個月的經營和管理數據進行統計匯總,這些數據能否及時處理完成,財務能否在月度關賬后及時核算 。數據的及時性是我們數據分析和挖掘及時性的保障 。如果公司的財務核算復雜,核算速度緩慢,上個月的數據在月中才能統計匯總完成,等需要調整財務策略的時候,已經到了月底了,一個月已經快過完了 。特別是公司做大了之后,業務覆蓋多個市場、多個國家,數據不能及時匯總,會影響到高層決策的及時程度 。
數據的及時性與企業數據處理的速度和效率有直接的關系,為了提高數據的及時性,越來越多的公司采用管理信息系統,并在管理信息系統中附加各種自動數據處理功能,能夠在數據上傳系統之后自動完成絕大部分報表,從而保證數據處理的效率 。計算機自動處理中間層數據是提高企業數據處理效率的有效手段 。
除了保證數據采集的及時性和數據處理的效率問題外,還需要從制度和流程上保證數據傳輸的及時性 。數據報表完成了,要及時或者在要求的時間范圍內發送到指定的部門,或者上傳到指定的存儲空間 。
數據的即時性
數據的即時性是指數據采集時間節點和數據傳輸的時間節點,一個數據在數據源頭采集后立即存儲,并立即加工呈現,就是即時數據,而經過一段時間之后再傳輸到信息系統中,則數據即時性就稍差 。
微博的數據采集,當用戶發布了微博,數據立即能夠被抓取和加工,會生成即時微博數據報告,并隨著時間推移,數據不斷變化,我們可以稱作是即時采集和處理的 。一個生產設備的儀表即時反應著設備的溫度、電壓、電流、氣壓等數據,這些數據生成數據流,隨時監控設備的運行狀況,這個數據可以看作是即時數據 。而當設備的即時運行數據存儲下來,用來分析設備運行狀況與設備壽命的關系,這些數據就成為歷史數據 。
數據的完整性
數據的完整性是從數據采集到的程度來衡量的,是應采集和實際采集到數據之間的比例 。一條信息采集12個數據點,如我們采集員工信息數據的時候,要求填寫姓名、出生日期、性別、民族、籍貫、身高、血型、婚姻狀況、最高學歷、最高學歷專業、最高學歷畢業院校、最高學歷畢業時間等12項信息,而某一員工僅僅填寫了部分信息,如只填寫了其中的5項,則該員工所填寫數據的完整性只有一半 。
一個公司數據的完整性體現著這個公司對數據的重視程度 。要求采集數據而實際上并未完整采集,只采集了一部分,這就是不完整的,往往是公司對數據采集質量要求不到位導致的 。公司要求每個人都填寫完整的個人信息表,而有部分員工拒絕填寫,公司2000員工,只有1200人填寫了完整的個人信息表,則這個數據集就是不完整的 。
另外,對于動態數據,我們可以從時間軸上去衡量數據采集的完整性 。比如,我們要求每小時采集一次數據,每天會形成24個數據點,記錄為24條數據,但是員工瀆職,只記錄了20次,那么這個數據集也是不完整的 。
數據的全面性
數據的全面性和完整性不同,完整性衡量的是應采集和實際采集的差異 。而全面性指的是數據采集點的遺漏情況 。比如說,我們要采集員工行為數據,我們只采集了員工上班打卡和下班打卡的數據,上班時間的員工行為數據并未采集,或者沒有找到合適的方法來采集 。那么,這個數據集就是不全面的 。
我們描述一個產品的包裝,僅僅描述了產品包裝的正面和背面,沒有記錄產品包裝的側面,則就是不全面的 。我們記錄一個客戶的交易數據,我們只采集了客戶訂單中的產品、訂單中產品的價格和數量,而沒有采集客戶送貨地址、采購時間,這個數據采集就是不全面的 。
騰訊QQ和微信的用戶數據記錄了客戶交流溝通的數據;阿里和京東的用戶數據記錄了用戶的購買交易數據;百度地圖記錄了用戶出行的數據;大眾點評和美團記錄了客戶餐飲娛樂的數據 。對于全面描述一個人的生活的衣食住行各方面,這些公司的數據都是不全面的,而如果把他們的數據整合起來,則會形成更加全面的數據 。所以說,數據的全面性說一個相對的概念 。過度追求數據的全面性說不現實的 。
數據的關聯性
數據的關聯性是指各個數據集之間的關聯關系 。比如員工工資數據和員工績效考核數據是通過員工這個資源關聯在一起來的,而且績效數據直接關系到工資的多少 。采購訂單數據與生產訂單數據之間通過物料的追溯機制進行關聯,而生產訂單又是由員工完成的,即通過員工作業數據與員工信息數據關聯起來 。
其實,我們本書探討的企業大數據,每個數據集都是相關關聯的,有些是直接關聯的,比如員工工資數據和員工績效數據,有些是間接關聯的,比如說物料采購訂單數據與員工工資數據 。這些數據的關聯關系是由公司的資源,包括人、財、物和信息等,連接起來的 。如果有任何的數據集不能連接到其他的數據集,就會存在數據割裂或者數據孤島 。數據割裂和數據孤島是企業數據關聯性不足導致的 。而數據的關聯性直接影響到企業數據集的價值 。
產品數據分析要關注哪些維度或指標
(一)、銷售數據之維度
1、商品
商品是零售分析的最細維度之一,大部分的指標都依附商品來做明細的記錄,同時很多維度也是通過商品進行交叉分析 。
2、客戶
客戶是銷售對象,包括會員 。客戶所在地和區域有關聯 。
3、區域
區域是地理位置 。從全球視角看:洲---國家---區;從國家視角看:區——省/市——縣/ 區—鎮/鄉/村,一般按正式行政單位劃分 。
4、時間
時間是進行數據分析非常重要的維度,分析的角度有公歷角度和農歷角度 。其中,公歷角度:年——季度——月——日——時段(每2小時為一個段);星期、公歷節假日 。農歷角度:年——節氣——日——時刻;農歷節假日 。
(二)、銷售數據之指標
1、銷售數量
客戶消費的商品的數量 。
2、含稅銷售額
客戶購買商品所支付的金額 。
3、毛利
毛利=實際銷售額-成本 。
4、凈利
凈利=去稅銷售額-去稅成本 。
5、毛利率
銷售毛利率是毛利占銷售收入的百分比,也簡稱為毛利率,其中毛利是銷售收入與銷售成本的差 。
毛利率=(毛利/實際銷售額)×100% 。
6、周轉率
周轉率和統計的時間段有關 。周轉率=(銷售吊牌額/庫存金額)×100% 。
7、促銷次數
促銷次數有宏觀概念上的,也有微觀概念上的 。宏觀上,是指一個銷售單位中一段 時間內發動促銷的次數,或某個供應商的商品在一段時間內參與促銷的次數;微觀層面上,是表示一個單品在一段時間內參與促銷的次數 。
8、交易次數
客戶在POS 點上支付一筆交易記錄作為一次交易 。
9、客單價
客戶在一次交易中支付的金額總和稱為客單價 。
客單價=銷售額/交易次數 。
10、周轉天數
周轉天數=庫存金額/銷售吊牌額 。周轉天數越長,表示經營效率越低或存貨管理越差;周轉天數越短,表示經營效率越高或存貨管理 。
11、退貨率
退貨率=退貨金額/進貨金額(一段時間);用于描述經營效率或存貨管理情況的指標,與時間有關 。
12、售罄率
售罄率=銷售數量/進貨數量 。
13、庫銷比
庫銷比=期末庫存金額/(本期銷售牌價額/銷售天數*30)
(只有在單款SKU 計算中可用數量替代金額 。)
14、連帶率
連帶率=銷售件數/交易次數 。
15、平均單價
平均單價=銷售金額/銷售件數 。
16、平均折扣
平均折扣=銷售金額/銷售吊牌額
17、SKU(深度與寬度)
英文全稱為 stock keeping unit, 簡稱SKU,定義為保存庫存控制的最小可用單位,例如紡織品中一個SKU 通常表示一個規格,顏色,款式),即貨號,例:AMF80570-1 。
18、期貨
所謂期貨,一般指期貨合約,就是指由期貨交易所統一制定的、規定在將來 某一特定的時間和地點交割一定數量標的物的標準化合約。服裝行業上具體指訂貨會上所訂購且分期交付的貨品 。
19、坪效
就是指終端賣場1平米的效率,一般是作為評估賣場實力的一個重要標準 。
坪效=銷售金額/門店營業面積(不包含倉庫面積) 。
20、促銷商品
指促銷活動期間指定的商品,其價格低于市場同類的商品 。包括DM 商品,開店促銷,普通促銷貨(特價),不包含正常降價 。
(三)、銷售數據之分析方法
1、直接數據的分析 。
2、間接數據的組合分析 。
數據質量有幾種維度?分別是什么?
- 完整性
- 一致性多源數據的數據模型不一致,如命名不一致,數據編碼不一致,含義不一致,生命周期不一致等
- 準確性準確性也叫可靠性,不可靠的數據可能會導致嚴重的問題,會造成有缺陷的方法和糟糕的決策
- 唯一性
- 關聯性數據關聯性問題是指存在數據關聯的數據關系缺失或錯誤,例如:函數關系、相關系數、主外鍵關系、索引關系等 。存在數據關聯性問題,會直接影響數據分析的結果,進而影響管理決策 。
- 真實性
- 及時性數據的及時性(In-time)是指能否在需要的時候獲到數據,數據的及時性與企業的數據處理速度及效率有直接的關系,是影響業務處理和管理效率的關鍵指標 。
- 邏輯檢查不同表字段之間可能會有邏輯關聯,需要稽核
- 離群值檢查部分數據可能會偏離其他數據,比如同一個商品金額大家都是100元,而有一條數據是1W
- 自定義規則由需求方自定義相關規則
- 波動稽核
- 強弱規則
數據完整性問題包含數據條目不完整,數據屬性不完整等
用于識別和度量重復數據,冗余數據,重復數據是導致業務無法協同,流程無法追溯的重要因素,也是數據治理需要解 決的最基本的數據問題
數據必須真實準確的反映客觀的實體存在或真實的業務,真 實可靠的 原始統 計數據是企業統計工作的靈魂,是一切管理工作的基礎,是經 營 者進行正確經營決策必不可少的第一手 資料 。
與上周環比稽核波動情況
每個規則的權重應該是不一樣的,需要配置優先級,這對后續的告警方式是有幫助的
我們最終的目的是希望做到頁面可配置
APP數據指標體系的維度包括哪些?
APP的數據指標體系主要分為五個維度,包括用戶規模與質量、參與度分析、渠道分析、功能分析以用戶屬性分析 。
用戶規模和質量維度主要是分析用戶規模指標,這類指標一般為產品考核的重點指標 。
參與度分析主要分析用戶的活躍度 。
渠道分析主要分析渠道推廣效果 。
功能分析主要分析功能活躍情況、頁面訪問路徑以及轉化率 。
用戶屬性分析主要分析用戶特征 。
什么是數據庫維度?
從多個角度(時間、地域、機構等方面)研究一個對象的信息,其中,被研究對象為實體,研究角度就成為維度 。
【數據質量有幾種維度?分別是什么 數據維度的種類】關于數據維度和數據維度的種類的內容就分享到這兒!更多實用知識經驗,盡在 m.apearl.cn
- 經濟學博士專業有哪些,經濟學博士年薪大概有多少錢?
- 艄字怎么組詞 船艄怎么讀
- 膽堿能性蕁麻疹藥物治療,膽堿能性蕁麻疹吃什么藥最有效
- 屬相不合的生肖,屬相不合有科學依據嗎
- 會議的營銷模式有哪些、 會議營銷
- 讀鋼鐵是怎樣煉成的有感1000字左右,讀鋼鐵是怎樣煉成的有感1000字大學生
- 大學文科專業有哪些,中國政法大學文科專業有哪些
- 便秘最有效最簡單的辦法是什么 便秘喝什么茶潤腸通便
- 第一次直播開場白臺詞有哪些 直播間歡迎語文案
- 調查方式有哪幾種 調查方式有哪些具體的方
