從抓取的網頁中提取值

首先嚐試使用python，谷歌一天後，我的舊大腦更加難倒。從抓取的網頁中提取值

我已經使用pycurl登錄通過ntlm代理和刮頁，然後使用beautifulsoup來美化結果。

我想從美化輸出中提取3個值並將它們存儲爲變量。該頁面是動態生成的，因此它們在頁面上的位置不斷變化。 3個標籤只在頁面上出現一次，並且它們的位置與它們各自的值相比是恆定的。

如何從美化輸出中提取Value1，Value2和Value3並將它們存儲爲變量。

這3個oneliners是我需要做的python。

grep -A 3「Label1」prettify.txt | tail -n 1 | awk'{print $ 1}'

grep「Label2」prettify.txt | awk'{print $ 3}'

grep -B 4「Label3」prettify.txt | awk'{print $ 1}'RS = [FS =] |尾-n 1

提取1

<b> 
    <font color="Red"> 
    Label1 
    </font> 
    <font color="blue"> 
    Value1 
    </font> 
    </b> 
    <br /> 
    Label2: Value2 
    <br />

提取2

<li> 
    <font color="green"> 
     [value3] 
    </font> 
    <font color="red"> 
     Label3 
    </font> 
    </li>

來源

2012-01-19 newb

什麼問題？你試過了什麼代碼？什麼不行？ –

問題：如何從美化輸出中提取Value1，Value2和Value3並將它們存儲爲變量。 – newb

提示：**更新**問題是期望。評論沒有幫助，因爲它只是重複了這個問題。 –

我已經做了一些hackish的編碼之前，我已經卷曲，然後在頁面中使用的元組內查找功能爲了從其餘內容中刪除數據。如：

resultant_value = result[result.find(beginning_location):result.find(ending_location)]

變量beginning_location和ending_location可能是某些獨特指標在開始和使其剝離出來，並放置到變量resultant_value值的結束。希望我的黑客方法能夠以某種方式提供幫助！

來源

2012-01-19 04:03:30 sbrichards

謝謝你會看到我是否可以得到它的工作。首先去編程，以便讀取很少的內容。 – newb

祝你好運！如果你需要幫助，只需向我發送一封電子郵件sbrichards [at] mit.edu，並嘗試幫助:) – sbrichards

從抓取的網頁中提取值

回答

相關問題