分析Python中的內(nèi)存泄漏
引子
之前一直盲目的認(rèn)為 Python 不會存在內(nèi)存泄露, 但是眼看著上線的項(xiàng)目隨著運(yùn)行時間的增長 而越來越大的內(nèi)存占用, 我意識到我寫的程序在發(fā)生內(nèi)存泄露, 之前 debug 過 logging 模塊導(dǎo)致的內(nèi)存泄露.
目前看來, 還有別的地方引起的內(nèi)存泄露. 經(jīng)過一天的奮戰(zhàn), 終于找到了內(nèi)存泄露的地方, 目前項(xiàng)目 跑了很長時間, 在業(yè)務(wù)量較小的時候內(nèi)存還是能回到剛啟動的時候的內(nèi)存占用.
什么情況下不用這么麻煩
如果你的程序只是跑一下就退出大可不必大費(fèi)周章的去查找是否有內(nèi)存泄露, 因?yàn)?Python 在退出時 會釋放它所分配的所有內(nèi)存, 如果你的程序需要連續(xù)跑很長時間那么就要仔細(xì)的查找是否 產(chǎn)生了內(nèi)存泄露.
場景
如何產(chǎn)生的內(nèi)存泄露呢, 項(xiàng)目是一個 TCP server, 每當(dāng)有連接過來時都會創(chuàng)建一個連接實(shí)例來進(jìn)行 管理, 每次斷開時連接實(shí)例還被占用并沒有釋放. 沒有被釋放的原因肯定是因?yàn)橛心硞€地方對連接 實(shí)例的引用沒有釋放, 所以隨著時間的推移, 連接創(chuàng)建分配內(nèi)存, 連接斷開并沒有釋放掉內(nèi)存, 所以 就會產(chǎn)生內(nèi)存泄露.
調(diào)試方法
由于不知道具體是哪里引起的內(nèi)存泄露, 所以要耐心的一點(diǎn)點(diǎn)調(diào)試.
由于知道了斷開連接時沒有釋放, 所以我就不停的模擬創(chuàng)建連接然后發(fā)送一些包后斷開連接, 然后通過下面一行 shell 來觀察內(nèi)存占用情況:
PID=50662;while true; do; ps aux | grep $PID | grep -v grep | awk '{print $5" "$6}' >> t; sleep 1; done
如果在增長了一定的量后保持住就說明已經(jīng)沒有產(chǎn)生泄露.
同時可以在對象該釋放的時候查看對象的引用計(jì)數(shù), 通過 sys.getrefcount(obj). 如果引用計(jì)數(shù)變?yōu)榱?2 則說明該對象在跳出命名空間后就會被正確回收.
產(chǎn)生原因
項(xiàng)目中兩種情況導(dǎo)致對象沒有被正確回收:
被退出才回收的對象引用
交叉引用
被退出才回收的對象引用
為了追蹤連接所以把連接對象同時放在一個列表里, 而這個列表只有在程序退出時才會被回收, 如果不正確處理, 那么分配的對象將也會只在程序退出時才會被回收.
全局變量和類變量都只會在程序退出的時候才會被回收:
_CONNECTIONS = []
# ...
class Connection(object):
def __init__(self, sock, address)
pass
def server_loop():
# ...
sock, address = server_sock.accept()
connection = Connection(sock, address)
_CONNECTIONS.append(connection)
# ...
sock.close()
上面把所有建立的連接都放在全局變量 _CONNECTIONS 里, 如果在關(guān)閉的時候不從這個列表 里取出(減少引用)則 connection 對象就不會被回收, 則每建立一次連接就會有個連接對象和連接 對象引用的對象不會被回收.
如果把對象放在一個類屬性里也是一樣的, 因?yàn)轭悓ο笤诔绦蛞婚_始就分配, 并在程序退出時才被回收.
解決辦法就是在退出時從列表(或其他對象)里解除對對象的引用(刪除)
_CONNECTIONS = []
# ...
class Connection(object):
def __init__(self, sock, address)
pass
def server_loop():
# ...
sock, address = server_sock.accept()
connection = Connection(sock, address)
_CONNECTIONS.append(connection)
try:
# ...
sock.close()
finally:
_CONNECTIONS.remove(connection) # XXX
交叉引用
有時候我們?yōu)閷ο蠓峙湟粋€實(shí)例屬性時需要將自己本身賦值給實(shí)例屬性, 作為實(shí)例屬性的實(shí)例屬性, 說著很拗口, 看一下代
class ConnectionHandler(object):
def __init__(self, connection):
self._conn = connection
class Connection(object):
def __init__(self, sock, address)
self._conn_handler = ConnectionHandler(self) # XXX
上面的代碼就會產(chǎn)生交叉引用, 交叉引用會讓解釋器困惑, 從而之后只能靠2代和3代回收, 這個過程可能會很慢.
解決這種問題的方法就是使用 弱引用
import weakref
class ConnectionHandler(object):
def __init__(self, connection):
self._conn = connection
class Connection(object):
def __init__(self, sock, address)
self._conn_handler = ConnectionHandler(weakref.proxy(self)) # XXX
更多信息請查看IT技術(shù)專欄
版權(quán)所有:易賢網(wǎng)