2012-11-15 46 views
0

我一直使用美麗的湯和lxml.html來解析python中的html,但現在我正面臨着編寫一個腳本,該腳本將單獨運行在標準庫上。下一個最好的模塊/技術是什麼?用python標準庫解析html?或者手動「安裝」一個模塊?

我準備接受它會比較差,即使我將失去使用CSS選擇器的能力(哭泣!)問題是我需要它在任何舊的虛擬主機上運行,​​他們只有標準庫。

或者我可以手動安裝lxml和lxml.html模塊嗎?即複製/ usr/share/pyshared/lxml文件夾到我的服務器並使用sys.path.insert讓我的腳本看到它?這是醜陋的,但沒有重寫我的代碼解析HTML沒有兩個事實上的標準庫!

我還沒有嘗試過,但我懷疑你在共享主機服務器上獲得的shell將允許我以更常規的方式安裝python模塊:使用「python setup.py install」或pip,但如果你知道否則請讓我知道。

乾杯,

羅傑 - 倫敦

+0

將模塊/軟件包內聯/作爲zipfile?還要注意'。'在模塊搜索路徑中。 –

回答

2

嘗試virtualenv,你可以安裝任何你喜歡的包。

cd ~ 
wget https://raw.github.com/pypa/virtualenv/master/virtualenv.py 
python virtualenv.py newenv 
cd newenv 
source bin/activate 
pip install lxml  
+0

是,** virtualenv **將軟件包安裝到它自己的文件夾而不是系統範圍的位置,因此不需要root權限。 – lins05

+0

太棒了 - 謝謝:) – technicalbloke