2012-01-19 129 views
0

首先嚐試使用python,谷歌一天後,我的舊大腦更加難倒。從抓取的網頁中提取值

我已經使用pycurl登錄通過ntlm代理和刮頁,然後使用beautifulsoup來美化結果。

我想從美化輸出中提取3個值並將它們存儲爲變量。該頁面是動態生成的,因此它們在頁面上的位置不斷變化。 3個標籤只在頁面上出現一次,並且它們的位置與它們各自的值相比是恆定的。

如何從美化輸出中提取Value1,Value2和Value3並將它們存儲爲變量。

這3個oneliners是我需要做的python。

grep -A 3「Label1」prettify.txt | tail -n 1 | awk'{print $ 1}'

grep「Label2」prettify.txt | awk'{print $ 3}'

grep -B 4「Label3」prettify.txt | awk'{print $ 1}'RS = [FS =] |尾-n 1

提取1

<b> 
    <font color="Red"> 
    Label1 
    </font> 
    <font color="blue"> 
    Value1 
    </font> 
    </b> 
    <br /> 
    Label2: Value2 
    <br /> 

提取2

<li> 
    <font color="green"> 
     [value3] 
    </font> 
    <font color="red"> 
     Label3 
    </font> 
    </li> 
+2

什麼問題?你試過了什麼代碼?什麼不行? –

+0

問題:如何從美化輸出中提取Value1,Value2和Value3並將它們存儲爲變量。 – newb

+0

提示:**更新**問題是期望。評論沒有幫助,因爲它只是重複了這個問題。 –

回答

0

我已經做了一些hackish的編碼之前,我已經卷曲,然後在頁面中使用的元組內查找功能爲了從其餘內容中刪除數據。 如:

resultant_value = result[result.find(beginning_location):result.find(ending_location)] 

變量beginning_locationending_location可能是某些獨特指標在開始和使其剝離出來,並放置到變量resultant_value值的結束。希望我的黑客方法能夠以某種方式提供幫助!

+0

謝謝你會看到我是否可以得到它的工作。首先去編程,以便讀取很少的內容。 – newb

+0

祝你好運!如果你需要幫助,只需向我發送一封電子郵件sbrichards [at] mit.edu,並嘗試幫助:) – sbrichards