眾所周知,Python 是一門面向對象語言,在 Python 的世界一切皆對象。所以一切變量的本質(zhì)都是對象的一個指針而已。
Python 運行過程中會不停的創(chuàng)建各種變量,而這些變量是需要存儲在內(nèi)存中的,隨著程序的不斷運行,變量數(shù)量越來越多,所占用的空間勢必越來越大,如果對變量所占用的內(nèi)存空間管理不當?shù)脑?,那么肯定會出現(xiàn) out of memory。程序大概率會被異常終止。
因此,對于內(nèi)存空間的有效合理管理變得尤為重要,那么 Python 是怎么解決這個問題的呢。其實很簡單,對不不可能再使用到的內(nèi)存進行回收即可,像 C 語言中需要程序員手動釋放內(nèi)存就是這個道理。但問題是如何確定哪些內(nèi)存不再會被使用到呢?這就是我們今天要說的垃圾回收了。
目前垃圾回收比較通用的解決辦法有三種,引用計數(shù),標記清除以及分代回收。
引用計數(shù)
引用計數(shù)也是一種最直觀,最簡單的垃圾收集技術。在 Python 中,大多數(shù)對象的生命周期都是通過對象的引用計數(shù)來管理的。其原理非常簡單,我們?yōu)槊總€對象維護一個 ref 的字段用來記錄對象被引用的次數(shù),每當對象被創(chuàng)建或者被引用時將該對象的引用次數(shù)加一,當對象的引用被銷毀時該對象的引用次數(shù)減一,當對象的引用次數(shù)減到零時說明程序中已經(jīng)沒有任何對象持有該對象的引用,換言之就是在以后的程序運行中不會再次使用到該對象了,那么其所占用的空間也就可以被釋放了了。
我們來看看下面的例子。
import osimport psutil# 打印當前程序占用的內(nèi)存大小def print_memory_info(name): pid = os.getpid() p = psutil.Process(pid) info = p.memory_full_info() MB = 1024 * 1024 memory = info.uss / MB print(‘%s used %d MB’ % (name, memory))# 測試函數(shù)def foo(): print_memory_info(“foo start”) length = 1000 * 1000 list = [i for i in range(length)] print_memory_info(“foo end”)foo()print_memory_info(“main end”)### 輸出結果foo start used 6 MBfoo end used 55 MBmain end used 10 MB
函數(shù) print_memory_info 用來獲取程序占用的內(nèi)存空間大小,在 foo 函數(shù)中創(chuàng)建一個包含一百萬個整數(shù)的列表。從打印結果我們可以看出,創(chuàng)建完列表之后程序耗用的內(nèi)存空間上升到了 55 MB。而當函數(shù) foo 調(diào)用完畢之后內(nèi)存消耗又恢復正常。
這是因為我們在函數(shù) foo 中創(chuàng)建的 list 變量是局部變量,其作用域是當前函數(shù)內(nèi)部,一旦函數(shù)執(zhí)行完畢,局部變量的引用會被自動銷毀,即其引用次數(shù)會變?yōu)榱?,所占用的?nèi)存空間也會被回收。
為了驗證我們的想法,我們對函數(shù) foo 稍加改造。代碼如下:
def foo(): print_memory_info(“foo start”) length = 1000 * 1000 list = [i for i in range(length)] print_memory_info(“foo end”) return list### 輸出結果foo start used 6 MBfoo end used 55 MBmain end used 55 MB
稍加改造之后,即使 foo 函數(shù)調(diào)用結束其所消耗的內(nèi)存也未被釋放。
主要是因為我們將函數(shù) foo 內(nèi)部產(chǎn)生的列表返回并在主程序中接收之后,這樣就會導致該列表的引用依然存在,該對象后續(xù)仍有可能被使用到,垃圾回收便不會回收該對象。
那么,什么時候?qū)ο蟮囊么螖?shù)才會增加呢。下面四種情況都會導致對象引用次數(shù)加一。
- 對象被創(chuàng)建(num=2)
- 對象被引用(count=num)
- 對象作為參數(shù)傳遞到函數(shù)內(nèi)部
- 對象作為一個元素添加到容器中
同理,對象引用次數(shù)減一的情況也有四種。
- 對象的別名被顯式銷毀(del num)
- 對象的別名被賦予新的對象(num=30)
- 對象離開它的作用域(函數(shù)局部變量)
- 從容器中刪除對象,或者容器被銷毀
引用計數(shù)看起來非常簡單,實現(xiàn)起來也不復雜,只需要維護一個字段保存對象被引用的次數(shù)即可,那么是不是就代表這種算法沒有缺點了呢。實則不然,我們知道引用次數(shù)為零的對象所占用的內(nèi)存空間肯定是需要被回收的。那引用次數(shù)不為零的對象呢,是不是就一定不能回收呢?
我們來看看下面的例子,只是對函數(shù) foo 進行了改造,其余未做更改。
def foo(): print_memory_info(“foo start”) length = 1000 * 1000 list_a = [i for i in range(length)] list_b = [i for i in range(length)] list_a.append(list_b) list_b.append(list_a) print_memory_info(“foo end”) return list### 輸出結果foo start used 6 MBfoo end used 93 MBmain end used 93 MB
我們看到,在函數(shù) foo 內(nèi)部生成了兩個列表 list_a 和 list_b,然后將兩個列表分別添加到另外一個中。由結果可以看出,即使 foo 函數(shù)結束之后其所占用的內(nèi)存空間依然未被釋放。這是因為對于 list_a 和 list_b 來說雖然沒有被任何外部對象引用,但因為二者之間交叉引用,以至于每個對象的引用計數(shù)都不為零,這也就造成了其所占用的空間永遠不會被回收的尷尬局面。這個缺點是致命的。
為了解決交叉引用的問題,Python 引入了標記清除算法和分代回收算法。
標記清除
顯然,可以包含其他對象引用的容器對象都有可能產(chǎn)生交叉引用問題,而標記清除算法就是為了解決交叉引用的問題的。
標記清除算法是一種基于對象可達性分析的回收算法,該算法分為兩個步驟,分別是標記和清除。標記階段,將所有活動對象進行標記,清除階段將所有未進行標記的對象進行回收即可。那么現(xiàn)在的為問題變?yōu)榱?GC 是如何判定哪些是活動對象的?
事實上 GC 會從根結點出發(fā),與根結點直接相連或者間接相連的對象我們將其標記為活動對象(該對象可達),之后進行回收階段,將未標記的對象(不可達對象)進行清除。前面所說的根結點可以是全局變量,也可以是調(diào)用棧。
標記清除算法主要用來處理一些容器對象,雖說該方法完全可以做到不誤殺不遺漏,但 GC 時必須掃描整個堆內(nèi)存,即使只有少量的非可達對象需要回收也需要掃描全部對象。這是一種巨大的性能浪費。
分代回收
由于標記清除算法需要掃描整個堆的所有對象導致其性能有所損耗,而且當可以回收的對象越少時性能損耗越高。因此 Python 引入了分代回收算法,將系統(tǒng)中存活時間不同的對象劃分到不同的內(nèi)存區(qū)域,共三代,分別是 0 代,1 代 和 2 代。新生成的對象是 0 代,經(jīng)過一次垃圾回收之后,還存活的對象將會升級到 1 代,以此類推,2 代中的對象是存活最久的對象。
那么什么時候觸發(fā)進行垃圾回收算法呢。事實上隨著程序的運行會不斷的創(chuàng)建新的對象,同時也會因為引用計數(shù)為零而銷毀大部分對象,Python 會保持對這些對象的跟蹤,由于交叉引用的存在,以及程序中使用了長時間存活的對象,這就造成了新生成的對象的數(shù)量會大于被回收的對象數(shù)量,一旦二者之間的差值達到某個閾值就會啟動垃圾回收機制,使用標記清除算法將死亡對象進行清除,同時將存活對象移動到 1 代。 以此類推,當二者的差值再次達到閾值時又觸發(fā)垃圾回收機制,將存活對象移動到 2 代。
這樣通過對不同代的閾值做不同的設置,就可以做到在不同代使用不同的時間間隔進行垃圾回收,以追求性能最大。
事實上,所有的程序都有一個相識的現(xiàn)象,那就是大部分的對象生存周期都是相當短的,只有少量對象生命周期比較長,甚至會常駐內(nèi)存,從程序開始運行持續(xù)到程序結束。而通過分代回收算法,做到了針對不同的區(qū)域采取不同的回收頻率,節(jié)約了大量的計算從而提高 Python 的性能。
除了上面所說的差值達到一定閾值會觸發(fā)垃圾回收之外,我們還可以顯示的調(diào)用 gc.collect() 來觸發(fā)垃圾回收,最后當程序退出時也會進行垃圾回收。
總結
本文介紹了 Python 的垃圾回收機制,垃圾回收是 Python 自帶的功能,并不需要程序員去手動管理內(nèi)存。
其中引用計數(shù)法是最簡單直接的,但是需要維護一個字段且針對交叉引用無能為力。
標記清除算法主要是為了解決引用計數(shù)的交叉引用問題,該算法的缺點就是需要掃描整個堆的所有對象,有點浪費性能。
而分代回收算法的引入則完美解決了標記清除算法需要掃描整個堆對象的性能浪費問題。該算法也是建立在標記清除基礎之上的。
最后我們可以通過 gc.collect() 手動觸發(fā) GC 的操作。
題外話,如果你看過 JVM 的垃圾回收算法之后會發(fā)現(xiàn) Python 的垃圾回收算法與其是如出一轍的,事實再次證明,程序語言設計時是會相互參考的。