文章插圖

文章插圖
依靠內存來存儲數據的數據庫管理系統,也稱為內存數據庫,成為了解決高并發、低時延數據管理需求的技術路線 。近年來,隨著動態隨機存儲器(DRAM)容量的上升和單位價格的下降,使大量數據在內存中的存儲和處理成為可能,Redis、Memcached等內存數據庫管理軟件逐漸成熟,應用范圍越來越廣 。
未來幾年,隨著非易失性存儲器件(NVM)逐步投入商用,新硬件將會給內存數據庫帶來更大的發展機遇 。
本白皮書闡述了內存數據庫的概念,梳理了內存數據庫的發展歷史和核心屬性,分析了在電商、直播和電信行業的典型應用場景,并對主流的內存數據庫進行了介紹和對比,從技術和管理兩個角度提出了產品選型和硬件選型建議,并總結了內存數據庫的發展趨勢:
內存數據庫又稱主存數據庫(In-memory或main memory database),是一種主要依靠內存來存儲數據的數據庫管理系統 。
在數據庫技術中,有一類內存優化技術,是在傳統的磁盤數據庫中,增加內存緩沖池,也就是常說的共享內存技術,其主要目的是最小化磁盤訪問 。
而內存數據庫技術,幾乎把整個數據庫放進了內存中,相較于傳統數據庫使用的磁盤讀寫機制,內存具備更極致的讀寫速度,性能會比傳統的磁盤數據庫有數量級的提升 。因此內存數據庫通常被用于對性能要求較高的場景中 。
1.內存技術的成熟
內存器件的容量密度在快速上升 。最早期的內存和今天常見的內存條不同,是直接焊接在主板上的內存芯片,容量普遍在64KB以下 。
1982年之后,隨著80286芯片的推出,開始出現30線(Pin)256KB的SIMM內存條,被認為是內存領域的開山鼻祖;在80年代末,386和486時代的PC向16位發展,出現了72線的SIMM內存,單條容量可達512KB-2MB;90年代初,EDODRAM開始盛行,單條容量在4MB-16MB;在1995年,計算機系統進入圖形界面時代,內存技術也發生了重要變革,支持64位的SDRAM成為一代經典,在性能上有極大提升,容量也達到了64MB;隨后的十幾年,內存容量開始穩定地遵循摩爾定律翻倍,持續到2019年,DDR3內存的容量已經可以達到16GB 。
內存器件的單位價格也在逐年快速下降 。從1970年代至今,內存每兆字節的價格下降了近9個數量級,根據2019年最新的統計數據,平均花費3-5美元就可以購買到1GB的內存 。內存容量的持續上漲以及價格的下降,使大量數據在內存中進行存儲和操作成為可能 。
過去幾十年,計算機系統的存儲體系結構被設計成如圖2的金字塔形模型 。這樣的存儲結構利用局部性原理盡量將熱數據存儲在靠近CPU的地方 。在傳統模式中,內存數據庫的所有數據都保存在DRAM介質中 。
雖然DRAM的價格已經大幅下降,但在海量數據存儲的需求下,內存的成本依然是很大的問題;另外由于DRAM屬于易失性介質,掉電后所有數據都會丟失,需要額外考慮數據持久化的方案,會極大的限制內存數據庫的性能和使用場景 。
參考圖2,DDRDRAM及以上的易失性存儲CPU可以通過load/store指令直接訪問,而NANDSSD及以下的非易失性存儲CPU無法直接訪問,需要先加載到易失性存儲中,可以看出DRAM與SSD之間存在巨大的性能鴻溝,在訪問時延上出現了跳變 。
而持久型內存位于DRAM與SSD之間,以load/store指令的方式訪問并支持數據的持久化,也填補了DRAM與SSD在時延上存在的鴻溝 。相比DRAM,持久型內存在性能上處于劣勢,但容量和價格均占據優勢;相比NANDSSD,持久型內存在性能上處于優勢,但容量和價值處于劣勢 。
3.內存數據庫的發展歷程
內存數據庫的發展主要經歷了雛形期、理論成熟期、市場成長期及高速發展期四個階段 。
內存數據庫在提供高性能讀寫能力的同時,也存在由于器件導致的數據易失問題,需要在應用中引起注意 。
1).優勢:高性能讀寫
由于省去了磁盤I/O的開銷,在數據訪問的時延上內存型數據庫可以達到傳統關系型數據庫無法達到的微秒級別,單機內存數據庫的QPS也可以達到10萬以上,配合上用戶態協議棧、內存大頁等技術之后,更是可以輕松達到幾十萬QPS的量級,這是傳統的關系型數據庫很難做到的 。
2).挑戰:內存數據易失
內存數據庫當前主要使用DRAM作為存儲介質,DRAM屬于掉電易失性介質,為了保證數據的可靠性,內存數據庫需要考慮持久化方案 。現階段主流的鍵值對內存數據庫對于持久化的支持較為薄弱,持久化性能也不如傳統數據庫 。
內存型數據庫中克服掉電易失性來保障數據可靠性的方法主要是以下兩種:
一是每次操作都進行數據持久化,這種方式勢必會大幅降低內存數據庫的性能;二是按照一定的策略進行操作的持久化,這樣可以達到一定程度的優化和緩解,但極端情況下數據丟失的情況仍不可避免 。
現階段新型的非易失性存儲器件已經發布但尚未規?;逃?。相信解決了存儲易失性的難題后,內存數據庫會具備更多的應用 。
5.內存數據庫的分類
主流的內存數據庫可分為鍵值對內存數據庫、關系型內存數據庫以及其他數據庫,用戶可根據自身的業務需求選擇適合自己的內存數據庫類型 。
1).鍵值對內存數據庫
鍵值對(KV, Key-Value)內存數據庫指的是一種以鍵值對為主要存儲結構的內存數據庫 。鍵值對內存數據庫通常按鍵進行數據存取操作,值通常支持各種數據類型,使用鍵值存儲的數據模型相對簡單,更適合要求性能高、計算簡單的一些場景 。鍵值對內存數據庫的典型代表為 Redis、Memcached 和 Aerospike 。
2).關系型內存數據庫
關系型內存數據庫是一種基于數據關系模型的內存數據庫 。關系型內存數據庫將傳統的關系型數據庫表搬到內存中,支持通過 SQL語句的方式實現對內存數據的訪問,在實現復雜分析功能的同時,提升數據訪問速度 。關系型內存數據庫的典型代表軟件為 Oracle TimesTen、SAP HANA、MemSQL 和 SQLite 。
3).其他類型的內存數據庫
除鍵值對內存數據庫、關系型內存數據庫之外,其他比較小眾的內存數據庫稱為其他內存數據庫,比如圖內存數據庫 RedisGraph 等 。
6.內存數據庫產品現狀
DB-Engines Ranking 是公認較權威的數據庫排行,我們選取了其中最為活躍的 10 款典型內存數據庫進行對比 。開源產品中,Redis 和 Memcached 是最受歡迎的兩款鍵值對內存數據庫;而 SQLite 是最受歡迎的關系型內存數據庫 。表中大部分的關系型內存數據庫為商用數據庫,其中熱度最高的是 SAP HANA 。
【sd數據庫檢索方式 sd數據庫檢索途徑】早在 1995 年就發布第一版的Oracle TimesTen 仍然在網上活躍;2014 年新發布 Apache Ignite 兼容鍵值和關系型數據結構,熱度正穩步攀升 。事務支持方面,大部分的關系型內存數據庫稱可以支持 ACID,但都需要在性能上作出妥協 。
技術服務于業務,內存數據庫的選型應首先遵循業務場景的需求 。業務特性決定了數據的應用特性,包括數據量、并發度、讀寫特性、一致性、響應時間、操作復雜度、業務連續性等要求,對應數據庫的一致性、容錯性、擴展性、安全性等技術要求 。在做內存數據庫的選型前,建議先梳理業務需求并進行量化;再將核心數據應用特性映射成數據庫技術要求;最后按篩選出的技術要求進行選型 。
1).技術因素
按照技術要求進行內存數據庫選型時,可主要考察業務的性能、一致性要求和 SQL 兼容性三個因素 。
業務數據是否要求強一致性?如果業務對數據的可靠性和一致性要求較高、需要 ACID 級別的事務支持,則建議使用 MySQL 等傳統的關系型數據庫 。但需要注意的是,強一致性的要求會對數據庫的性能造成一定的影響;如果需要兼具高性能和強一致性,則需要在應用架構層面進行優化,單靠數據庫的能力還無法實現 。
數據處理是否要求 SQL 兼容性?在高性能要求的場景下,業務中如果數據結構固定、有復雜的關聯計算要求,或是需要 SQL 無法支持的情況,建議使用關系型內存數據庫;對于數據結構多變、擴展性要求高、數據模型和操作簡單的場景,建議使用鍵值對內存數據庫 。
除了這三條考察指標,還可以結合數據容量、成本、擴展性、可維護性等需求進行綜合考量 。
2).非技術因素
上述選型方法主要考量的是技術因素,除此以外還可以結合實際情況,引入一些其他維度的考量,進行綜合評估,最終挑選出適合的產品 。包括但不限于以下維度:
1)生態成熟度 。指數據庫產品的狀態,包括各種配套工具、技術架構成熟度、代碼質量、開發模式、社區建設、商業支持服務、版權協議等;2)應用架構適配度 。指應用架構對數據庫架構的兼容性、以及適配改造友好度,包括技術架構適配、開發語言適配等;3)團隊適應度 。指開發團隊、維護團隊對數據庫的熟悉程度、偏好程度、學習成本以及配套運維工具等 。
- css設置顏色的四種方式 css樣式顏色可以通過下面哪種方法設定
- 挽回感情的準確方式 挽回一個人的準確方法
- 如何將電腦網頁保存到桌面快捷方式 怎樣把網頁保存到桌面快捷方式
- java 字符串設置編碼 java字符的默認編碼方式
- webservice的用途 webservice幾種方式
- mysql數據庫三種備份方式 mysql數據備份通常有哪幾種方式
- java 鏈接 mysql java怎么鏈接數據庫
- 加密是啥意思 通信加密有哪些方式
- hbase構建二級索引的實現方式有哪些 hbase solr二級索引
- css怎么改背景圖大小 css3調整背景圖片大小的方式
