-1
基本上,我設計了一個Web搜索引擎,所以我設計了一個爬蟲來獲取網頁。Python:使用大字符串時的內存錯誤
閱讀時,網頁是html格式,所以所有的標籤都在那裏。我需要從正文和標題中提取關鍵字,因此我試圖刪除所有標記('<'和'>'之間的任何內容)。
以下代碼適用於小型html頁面,但當我嘗試爲了大規模使用這個(即從http://www.google.com開始),我用完了內存。
0 def remove_tags(self, s):
1 while '<' in s:
2 start = s.index('<')
3 end = s.index('>')
4 s = s[:start] + " " + s[end+1:]
5 return s.split()
內存錯誤發生在第4行。如何修復我的代碼,以便獲取s的子字符串不會消耗過多內存?
哦,那個人很醜。 – 2012-07-29 09:14:46