26 1月

探討容器中使用塊存儲

塊存儲是將裸磁盤空間通過劃邏輯盤，做Raid，或者LVM（邏輯卷）等方式邏輯劃分出N個(gè)邏輯的硬盤，然后采用映射的方式將這些邏輯盤掛載到主機(jī)。主機(jī)的操作系統(tǒng)認(rèn)為這些磁盤均為物理硬盤，跟直接拿一塊物理硬盤掛載到操作系統(tǒng)沒有區(qū)別。

塊存儲的優(yōu)點(diǎn)不言而喻：

使用了Raid與LVM等手段，可以多數(shù)據(jù)做冗余保護(hù)；

可以使用磁盤陣列，組成大容量的邏輯盤對外提供服務(wù)，提高容量；

對邏輯盤寫數(shù)據(jù)可轉(zhuǎn)化為對幾塊物理磁盤的并行寫入，提升了讀寫效率。

需求

在IaaS中，塊存儲被廣泛應(yīng)用于為虛擬機(jī)提供持久卷。虛擬機(jī)故障后依然能夠通過在其他虛擬機(jī)上掛載舊數(shù)據(jù)卷的方式來訪問磁盤數(shù)據(jù)，因此被普遍認(rèn)可。受此影響，睿云智合(Wise2C)的一些企業(yè)客戶在設(shè)計(jì)PaaS時(shí)，自然而然的聯(lián)想到共享存儲的這一優(yōu)勢，提出在PaaS中為容器掛載塊存儲的需求。

但是，憑借在IaaS中的卓越表現(xiàn)，塊存儲也能夠躋身PaaS業(yè)務(wù)中嗎？

分析

假設(shè)已有一套可提供RBD塊存儲的Ceph集群的前提下，我們先來分析幾個(gè)場景：

場景一

“我使用容器技術(shù)，但還不是深度用戶，只使用docker run之類的命令來手工啟動(dòng)單個(gè)容器，這些容器中運(yùn)行的服務(wù)都比較消耗磁盤空間?！?/p>

這類用戶局限于將容器作為一個(gè)臨時(shí)工具，并沒有將其與業(yè)務(wù)緊密結(jié)合。

如果對磁盤沒有持久化的需求，那么在主機(jī)磁盤空間空余足夠的情況下可以考慮直接映射宿主機(jī)文件系統(tǒng)。

若想讓磁盤獨(dú)占共享磁盤，或希望在不同宿主機(jī)上啟用容器時(shí)，均能重復(fù)使用之前訪問過的數(shù)據(jù)卷；此時(shí)可以在啟動(dòng)docker時(shí)，指定volume-driver為ceph-rbd的方式來使用由Ceph集群提供的塊存儲。

塊存儲驅(qū)動(dòng)框架圖如下所示：

塊存儲驅(qū)動(dòng)框架

場景二

“我使用容器編排工具來管理應(yīng)用，比如docker-compose、Rancher或Kubernetes。但我在每一個(gè)service下只需要啟用一個(gè)container，且對service沒有擴(kuò)容的需求；這些service都比較消耗磁盤，我希望在容器被重啟或重新調(diào)度后，仍可使用舊的數(shù)據(jù)盤?！?/p>

該場景比較特殊，每一個(gè)service只對應(yīng)一個(gè)container。因此，不會(huì)有多個(gè)container同時(shí)讀寫一塊數(shù)據(jù)盤的需求，只需保障container之前所掛載的存儲卷在container故障恢復(fù)或正常遷移后依然能夠被container訪問即可；即存儲卷對容器的自動(dòng)跟隨。

遷移場景如下圖所示：

但是，值得注意的是：

假設(shè)之前的container運(yùn)行在host-1上，對應(yīng)的，塊存儲就掛載在host-1上。

當(dāng)原有container因故被調(diào)度到新的host-2上時(shí)，編排框架檢測到該變化，將host-1上的原有塊設(shè)備卸載，然后掛載到host-2。

按照該流程，塊存儲的每一次遷移都需要從一臺主機(jī)上卸載，再到另外一臺主機(jī)上掛載；新container的啟動(dòng)依賴于volume，因此容器或者業(yè)務(wù)的恢復(fù)速度依賴于塊存儲的遷移速度。

假設(shè)平臺未能及時(shí)檢測到host-1上的container故障、舊有的container卡死無法快速銷毀，或者h(yuǎn)ost-1突然斷電時(shí)，Ceph Server必須等待超時(shí)后，才允許host-2重新掛載之前被使用的RBD塊。此時(shí)，container啟動(dòng)時(shí)間就會(huì)變得難以忍受，顯然這是與容器的秒起秒停的優(yōu)勢相互違背的。

場景三

我使用Rancher或者Kubernetes之類的容器編排軟件來管理應(yīng)用，每一個(gè)應(yīng)用有多個(gè)微服務(wù)；每一個(gè)微服務(wù)又對應(yīng)多個(gè)容器來并行對外提供服務(wù)。

Rancher

在Rancher里面，應(yīng)用被稱之為Stack，每一個(gè)stack包含一到多個(gè)service；?service即微服務(wù)，微服務(wù)之間按照單一職責(zé)劃分，只做一件事情。service屬于邏輯的概念，真正做事的是各service對應(yīng)的containers。如果希望通過為service擴(kuò)容，就增加service對應(yīng)的container數(shù)量；這些container無狀態(tài)，可被調(diào)度到多臺宿主機(jī)上，它們必須使用共享存儲來保障業(yè)務(wù)的持續(xù)性。

Kubernetes

在Kubernetes中，業(yè)務(wù)也是由一到多個(gè)service來共同完成的，這里的service與Rancher中service的概覽類似。Kubernetes的service是一個(gè)外部訪問點(diǎn)（endpoint），通過selector指定labels的方式可以選定一組pods，service為這組pods提供訪問代理和負(fù)載均衡。外部的客戶端只需知道service所暴露的端口和IP就能夠訪問到業(yè)務(wù)。由于pod是無狀態(tài)的，因此同Rancher一樣，也需要將業(yè)務(wù)數(shù)據(jù)存儲到共享存儲上，還必須保障同一個(gè)service對應(yīng)的多個(gè)pods均能共享該業(yè)務(wù)數(shù)據(jù)。

同一個(gè)service對應(yīng)的多個(gè)pods均能共享該業(yè)務(wù)數(shù)據(jù)

限于塊存儲只能同時(shí)被一個(gè)客戶端（主機(jī)）所掛載，當(dāng)service的多個(gè)containers或pods調(diào)度到多臺主機(jī)上時(shí)，塊存儲就難以應(yīng)付了。此時(shí)，原始共享文件系統(tǒng)的方法又體現(xiàn)出了它的優(yōu)勢，NAS會(huì)是一個(gè)最好的選擇！

探討容器中使用塊存儲

No Comments

Post a Comment Cancel Reply

近期文章