運(yùn)維必讀：Linux 的內(nèi)存分頁(yè)管理

　　內(nèi)存是計(jì)算機(jī)的主存儲(chǔ)器。內(nèi)存為進(jìn)程開(kāi)辟出進(jìn)程空間，讓進(jìn)程在其中保存數(shù)據(jù)。我將從內(nèi)存的物理特性出發(fā)，深入到內(nèi)存管理的細(xì)節(jié)，特別是了解虛擬內(nèi)存和內(nèi)存分頁(yè)的概念。
　　內(nèi)存
　　簡(jiǎn)單地說(shuō)，內(nèi)存就是一個(gè)數(shù)據(jù)貨架。內(nèi)存有一個(gè)最小的存儲(chǔ)單位，大多數(shù)都是一個(gè)字節(jié)。內(nèi)存用內(nèi)存地址（memory address）來(lái)為每個(gè)字節(jié)的數(shù)據(jù)順序編號(hào)。因此，內(nèi)存地址說(shuō)明了數(shù)據(jù)在內(nèi)存中的位置。內(nèi)存地址從0開(kāi)始，每次增加1。這種線性增加的存儲(chǔ)器地址稱為線性地址（linear address）。為了方便，我們用十六進(jìn)制數(shù)來(lái)表示內(nèi)存地址，比如0x00000003、0x1A010CB0。這里的“0x”用來(lái)表示十六進(jìn)制。“0x”后面跟著的，就是作為內(nèi)存地址的十六進(jìn)制數(shù)。
　　內(nèi)存地址的編號(hào)有上限。地址空間的范圍和地址總線（address bus）的位數(shù)直接相關(guān)。CPU通過(guò)地址總線來(lái)向內(nèi)存說(shuō)明想要存取數(shù)據(jù)的地址。以英特爾32位的80386型CPU為例，這款CPU有32個(gè)針腳可以傳輸?shù)刂沸畔?。每個(gè)針腳對(duì)應(yīng)了一位。如果針腳上是高電壓，那么這一位是1。如果是低電壓，那么這一位是0。32位的電壓高低信息通過(guò)地址總線傳到內(nèi)存的32個(gè)針腳，內(nèi)存就能把電壓高低信息轉(zhuǎn)換成32位的二進(jìn)制數(shù)，從而知道CPU想要的是哪個(gè)位置的數(shù)據(jù)。用十六進(jìn)制表示，32位地址空間就是從0x00000000 到0xFFFFFFFF。
　　內(nèi)存的存儲(chǔ)單元采用了隨機(jī)讀取存儲(chǔ)器（RAM， Random Access Memory）。所謂的“隨機(jī)讀取”，是指存儲(chǔ)器的讀取時(shí)間和數(shù)據(jù)所在位置無(wú)關(guān)。與之相對(duì)，很多存儲(chǔ)器的讀取時(shí)間和數(shù)據(jù)所在位置有關(guān)。就拿磁帶來(lái)說(shuō)，我們想聽(tīng)其中的一首歌，必須轉(zhuǎn)動(dòng)帶子。如果那首歌是第一首，那么立即就可以播放。如果那首歌恰巧是最后一首，我們快進(jìn)到可以播放的位置就需要花很長(zhǎng)時(shí)間。我們已經(jīng)知道，進(jìn)程需要調(diào)用內(nèi)存中不同位置的數(shù)據(jù)。如果數(shù)據(jù)讀取時(shí)間和位置相關(guān)的話，計(jì)算機(jī)就很難把控進(jìn)程的運(yùn)行時(shí)間。因此，隨機(jī)讀取的特性是內(nèi)存成為主存儲(chǔ)器的關(guān)鍵因素。
　　內(nèi)存提供的存儲(chǔ)空間，除了能滿足內(nèi)核的運(yùn)行需求，還通常能支持運(yùn)行中的進(jìn)程。即使進(jìn)程所需空間超過(guò)內(nèi)存空間，內(nèi)存空間也可以通過(guò)少量拓展來(lái)彌補(bǔ)。換句話說(shuō)，內(nèi)存的存儲(chǔ)能力，和計(jì)算機(jī)運(yùn)行狀態(tài)的數(shù)據(jù)總量相當(dāng)。內(nèi)存的缺點(diǎn)是不能持久地保存數(shù)據(jù)。一旦斷電，內(nèi)存中的數(shù)據(jù)就會(huì)消失。因此，計(jì)算機(jī)即使有了內(nèi)存這樣一個(gè)主存儲(chǔ)器，還是需要硬盤這樣的外部存儲(chǔ)器來(lái)提供持久的儲(chǔ)存空間。
　　虛擬內(nèi)存
　　內(nèi)存的一項(xiàng)主要任務(wù)，就是存儲(chǔ)進(jìn)程的相關(guān)數(shù)據(jù)。我們之前已經(jīng)看到過(guò)進(jìn)程空間的程序段、全局?jǐn)?shù)據(jù)、棧和堆，以及這些這些存儲(chǔ)結(jié)構(gòu)在進(jìn)程運(yùn)行中所起到的關(guān)鍵作用。有趣的是，盡管進(jìn)程和內(nèi)存的關(guān)系如此緊密，但進(jìn)程并不能直接訪問(wèn)內(nèi)存。在Linux下，進(jìn)程不能直接讀寫內(nèi)存中地址為0x1位置的數(shù)據(jù)。進(jìn)程中能訪問(wèn)的地址，只能是虛擬內(nèi)存地址（virtual memory address）。操作系統(tǒng)會(huì)把虛擬內(nèi)存地址翻譯成真實(shí)的內(nèi)存地址。這種內(nèi)存管理方式，稱為虛擬內(nèi)存（virtual memory）。

　　每個(gè)進(jìn)程都有自己的一套虛擬內(nèi)存地址，用來(lái)給自己的進(jìn)程空間編號(hào)。進(jìn)程空間的數(shù)據(jù)同樣以字節(jié)為單位，依次增加。從功能上說(shuō)，虛擬內(nèi)存地址和物理內(nèi)存地址類似，都是為數(shù)據(jù)提供位置索引。進(jìn)程的虛擬內(nèi)存地址相互獨(dú)立。因此，兩個(gè)進(jìn)程空間可以有相同的虛擬內(nèi)存地址，如0x10001000。虛擬內(nèi)存地址和物理內(nèi)存地址又有一定的對(duì)應(yīng)關(guān)系，如圖1所示。對(duì)進(jìn)程某個(gè)虛擬內(nèi)存地址的操作，會(huì)被CPU翻譯成對(duì)某個(gè)具體內(nèi)存地址的操作。

圖1 虛擬內(nèi)存地址和物理內(nèi)存地址的對(duì)應(yīng)

　　應(yīng)用程序來(lái)說(shuō)對(duì)物理內(nèi)存地址一無(wú)所知。它只可能通過(guò)虛擬內(nèi)存地址來(lái)進(jìn)行數(shù)據(jù)讀寫。程序中表達(dá)的內(nèi)存地址，也都是虛擬內(nèi)存地址。進(jìn)程對(duì)虛擬內(nèi)存地址的操作，會(huì)被操作系統(tǒng)翻譯成對(duì)某個(gè)物理內(nèi)存地址的操作。由于翻譯的過(guò)程由操作系統(tǒng)全權(quán)負(fù)責(zé)，所以應(yīng)用程序可以在全過(guò)程中對(duì)物理內(nèi)存地址一無(wú)所知。因此，C程序中表達(dá)的內(nèi)存地址，都是虛擬內(nèi)存地址。比如在C語(yǔ)言中，可以用下面指令來(lái)打印變量地址：
　　int v = 0;
　　printf("%p", (void*)&v);
　　本質(zhì)上說(shuō)，虛擬內(nèi)存地址剝奪了應(yīng)用程序自由訪問(wèn)物理內(nèi)存地址的權(quán)利。進(jìn)程對(duì)物理內(nèi)存的訪問(wèn)，必須經(jīng)過(guò)操作系統(tǒng)的審查。因此，掌握著內(nèi)存對(duì)應(yīng)關(guān)系的操作系統(tǒng)，也掌握了應(yīng)用程序訪問(wèn)內(nèi)存的閘門。借助虛擬內(nèi)存地址，操作系統(tǒng)可以保障進(jìn)程空間的獨(dú)立性。只要操作系統(tǒng)把兩個(gè)進(jìn)程的進(jìn)程空間對(duì)應(yīng)到不同的內(nèi)存區(qū)域，就讓兩個(gè)進(jìn)程空間成為“老死不相往來(lái)”的兩個(gè)小王國(guó)。兩個(gè)進(jìn)程就不可能相互篡改對(duì)方的數(shù)據(jù)，進(jìn)程出錯(cuò)的可能性就大為減少。
　　另一方面，有了虛擬內(nèi)存地址，內(nèi)存共享也變得簡(jiǎn)單。操作系統(tǒng)可以把同一物理內(nèi)存區(qū)域?qū)?yīng)到多個(gè)進(jìn)程空間。這樣，不需要任何的數(shù)據(jù)復(fù)制，多個(gè)進(jìn)程就可以看到相同的數(shù)據(jù)。內(nèi)核和共享庫(kù)的映射，就是通過(guò)這種方式進(jìn)行的。每個(gè)進(jìn)程空間中，最初一部分的虛擬內(nèi)存地址，都對(duì)應(yīng)到物理內(nèi)存中預(yù)留給內(nèi)核的空間。這樣，所有的進(jìn)程就可以共享同一套內(nèi)核數(shù)據(jù)。共享庫(kù)的情況也是類似。對(duì)于任何一個(gè)共享庫(kù)，計(jì)算機(jī)只需要往物理內(nèi)存中加載一次，就可以通過(guò)操縱對(duì)應(yīng)關(guān)系，來(lái)讓多個(gè)進(jìn)程共同使用。IPO中的共享內(nèi)存，也有賴于虛擬內(nèi)存地址。
　　內(nèi)存分頁(yè)
　　虛擬內(nèi)存地址和物理內(nèi)存地址的分離，給進(jìn)程帶來(lái)便利性和安全性。但虛擬內(nèi)存地址和物理內(nèi)存地址的翻譯，又會(huì)額外耗費(fèi)計(jì)算機(jī)資源。在多任務(wù)的現(xiàn)代計(jì)算機(jī)中，虛擬內(nèi)存地址已經(jīng)成為必備的設(shè)計(jì)。那么，操作系統(tǒng)必須要考慮清楚，如何能高效地翻譯虛擬內(nèi)存地址。
　　記錄對(duì)應(yīng)關(guān)系最簡(jiǎn)單的辦法，就是把對(duì)應(yīng)關(guān)系記錄在一張表中。為了讓翻譯速度足夠地快，這個(gè)表必須加載在內(nèi)存中。不過(guò)，這種記錄方式驚人地浪費(fèi)。如果樹(shù)莓派1GB物理內(nèi)存的每個(gè)字節(jié)都有一個(gè)對(duì)應(yīng)記錄的話，那么光是對(duì)應(yīng)關(guān)系就要遠(yuǎn)遠(yuǎn)超過(guò)內(nèi)存的空間。由于對(duì)應(yīng)關(guān)系的條目眾多，搜索到一個(gè)對(duì)應(yīng)關(guān)系所需的時(shí)間也很長(zhǎng)。這樣的話，會(huì)讓樹(shù)莓派陷入癱瘓。
　　因此，Linux采用了分頁(yè)（paging）的方式來(lái)記錄對(duì)應(yīng)關(guān)系。所謂的分頁(yè)，就是以更大尺寸的單位頁(yè)（page）來(lái)管理內(nèi)存。在Linux中，通常每頁(yè)大小為4KB。如果想要獲取當(dāng)前樹(shù)莓派的內(nèi)存頁(yè)大小，可以使用命令：
　　$getconf PAGE_SIZE
　　得到結(jié)果，即內(nèi)存分頁(yè)的字節(jié)數(shù)：
　　4096
　　返回的4096代表每個(gè)內(nèi)存頁(yè)可以存放4096個(gè)字節(jié)，即4KB。Linux把物理內(nèi)存和進(jìn)程空間都分割成頁(yè)。
　　內(nèi)存分頁(yè)，可以極大地減少所要記錄的內(nèi)存對(duì)應(yīng)關(guān)系。我們已經(jīng)看到，以字節(jié)為單位的對(duì)應(yīng)記錄實(shí)在太多。如果把物理內(nèi)存和進(jìn)程空間的地址都分成頁(yè)，內(nèi)核只需要記錄頁(yè)的對(duì)應(yīng)關(guān)系，相關(guān)的工作量就會(huì)大為減少。由于每頁(yè)的大小是每個(gè)字節(jié)的4000倍。因此，內(nèi)存中的總頁(yè)數(shù)只是總字節(jié)數(shù)的四千分之一。對(duì)應(yīng)關(guān)系也縮減為原始策略的四千分之一。分頁(yè)讓虛擬內(nèi)存地址的設(shè)計(jì)有了實(shí)現(xiàn)的可能。

　　無(wú)論是虛擬頁(yè)，還是物理頁(yè)，一頁(yè)之內(nèi)的地址都是連續(xù)的。這樣的話，一個(gè)虛擬頁(yè)和一個(gè)物理頁(yè)對(duì)應(yīng)起來(lái)，頁(yè)內(nèi)的數(shù)據(jù)就可以按順序一一對(duì)應(yīng)。這意味著，虛擬內(nèi)存地址和物理內(nèi)存地址的末尾部分應(yīng)該完全相同。大多數(shù)情況下，每一頁(yè)有4096個(gè)字節(jié)。由于4096是2的12次方，所以地址最后12位的對(duì)應(yīng)關(guān)系天然成立。我們把地址的這一部分稱為偏移量（offset）。偏移量實(shí)際上表達(dá)了該字節(jié)在頁(yè)內(nèi)的位置。地址的前一部分則是頁(yè)編號(hào)。操作系統(tǒng)只需要記錄頁(yè)編號(hào)的對(duì)應(yīng)關(guān)系。

圖2 地址翻譯過(guò)程

　　多級(jí)分頁(yè)表
　　內(nèi)存分頁(yè)制度的關(guān)鍵，在于管理進(jìn)程空間頁(yè)和物理頁(yè)的對(duì)應(yīng)關(guān)系。操作系統(tǒng)把對(duì)應(yīng)關(guān)系記錄在分頁(yè)表（page table）中。這種對(duì)應(yīng)關(guān)系讓上層的抽象內(nèi)存和下層的物理內(nèi)存分離，從而讓Linux能靈活地進(jìn)行內(nèi)存管理。由于每個(gè)進(jìn)程會(huì)有一套虛擬內(nèi)存地址，那么每個(gè)進(jìn)程都會(huì)有一個(gè)分頁(yè)表。為了保證查詢速度，分頁(yè)表也會(huì)保存在內(nèi)存中。分頁(yè)表有很多種實(shí)現(xiàn)方式，最簡(jiǎn)單的一種分頁(yè)表就是把所有的對(duì)應(yīng)關(guān)系記錄到同一個(gè)線性列表中，即如圖2中的“對(duì)應(yīng)關(guān)系”部分所示。
　　這種單一的連續(xù)分頁(yè)表，需要給每一個(gè)虛擬頁(yè)預(yù)留一條記錄的位置。但對(duì)于任何一個(gè)應(yīng)用進(jìn)程，其進(jìn)程空間真正用到的地址都相當(dāng)有限。我們還記得，進(jìn)程空間會(huì)有棧和堆。進(jìn)程空間為棧和堆的增長(zhǎng)預(yù)留了地址，但棧和堆很少會(huì)占滿進(jìn)程空間。這意味著，如果使用連續(xù)分頁(yè)表，很多條目都沒(méi)有真正用到。因此，Linux中的分頁(yè)表，采用了多層的數(shù)據(jù)結(jié)構(gòu)。多層的分頁(yè)表能夠減少所需的空間。

　　我們來(lái)看一個(gè)簡(jiǎn)化的分頁(yè)設(shè)計(jì)，用以說(shuō)明Linux的多層分頁(yè)表。我們把地址分為了頁(yè)編號(hào)和偏移量?jī)刹糠?，用單層的分?yè)表記錄頁(yè)編號(hào)部分的對(duì)應(yīng)關(guān)系。對(duì)于多層分頁(yè)表來(lái)說(shuō)，會(huì)進(jìn)一步分割頁(yè)編號(hào)為兩個(gè)或更多的部分，然后用兩層或更多層的分頁(yè)表來(lái)記錄其對(duì)應(yīng)關(guān)系，如圖3所示。

圖3 多層分頁(yè)表

　　在圖3的例子中，頁(yè)編號(hào)分成了兩級(jí)。第一級(jí)對(duì)應(yīng)了前8位頁(yè)編號(hào)，用2個(gè)十六進(jìn)制數(shù)字表示。第二級(jí)對(duì)應(yīng)了后12位頁(yè)編號(hào)，用3個(gè)十六進(jìn)制編號(hào)。二級(jí)表記錄有對(duì)應(yīng)的物理頁(yè)，即保存了真正的分頁(yè)記錄。二級(jí)表有很多張，每個(gè)二級(jí)表分頁(yè)記錄對(duì)應(yīng)的虛擬地址前8位都相同。比如二級(jí)表0x00，里面記錄的前8位都是0x00。翻譯地址的過(guò)程要跨越兩級(jí)。我們先取地址的前8位，在一級(jí)表中找到對(duì)應(yīng)記錄。該記錄會(huì)告訴我們，目標(biāo)二級(jí)表在內(nèi)存中的位置。我們?cè)僭诙?jí)表中，通過(guò)虛擬地址的后12位，找到分頁(yè)記錄，從而最終找到物理地址。
　　多層分頁(yè)表就好像把完整的電話號(hào)碼分成區(qū)號(hào)。我們把同一地區(qū)的電話號(hào)碼以及對(duì)應(yīng)的人名記錄在同一個(gè)小本子上。再用一個(gè)上級(jí)本子記錄區(qū)號(hào)和各個(gè)小本子的對(duì)應(yīng)關(guān)系。如果某個(gè)區(qū)號(hào)沒(méi)有使用，那么我們只需要在上級(jí)本子上把該區(qū)號(hào)標(biāo)記為空。同樣，一級(jí)分頁(yè)表中0x01記錄為空，說(shuō)明了以0x01開(kāi)頭的虛擬地址段沒(méi)有使用，相應(yīng)的二級(jí)表就不需要存在。正是通過(guò)這一手段，多層分頁(yè)表占據(jù)的空間要比單層分頁(yè)表少了很多。
　　多層分頁(yè)表還有另一個(gè)優(yōu)勢(shì)。單層分頁(yè)表必須存在于連續(xù)的內(nèi)存空間。而多層分頁(yè)表的二級(jí)表，可以散步于內(nèi)存的不同位置。這樣的話，操作系統(tǒng)就可以利用零碎空間來(lái)存儲(chǔ)分頁(yè)表。還需要注意的是，這里簡(jiǎn)化了多層分頁(yè)表的很多細(xì)節(jié)。最新Linux系統(tǒng)中的分頁(yè)表多達(dá)3層，管理的內(nèi)存地址也比本章介紹的長(zhǎng)很多。不過(guò)，多層分頁(yè)表的基本原理都是相同。
　　綜上，我們了解了內(nèi)存以頁(yè)為單位的管理方式。在分頁(yè)的基礎(chǔ)上，虛擬內(nèi)存和物理內(nèi)存實(shí)現(xiàn)了分離，從而讓內(nèi)核深度參與和監(jiān)督內(nèi)存分配。應(yīng)用進(jìn)程的安全性和穩(wěn)定性因此大為提高。

QQ空間新浪微博騰訊微博人人網(wǎng) 微信更多

上一篇：選擇哪個(gè)編程語(yǔ)言，最好入門？

下一篇： Oracle 數(shù)據(jù)庫(kù)性能調(diào)優(yōu)技術(shù)文檔

軟件開(kāi)發(fā)

華為認(rèn)證

思科認(rèn)證

微軟認(rèn)證

數(shù)據(jù)認(rèn)證

紅帽認(rèn)證

Cloudera

其他課程

首頁(yè)

學(xué)習(xí)天地

師資力量

學(xué)員活動(dòng)

新聞資訊

關(guān)于我們

新聞資訊

行業(yè)新聞

運(yùn)維必讀：Linux 的內(nèi)存分頁(yè)管理

熱點(diǎn)新聞

友情鏈接