首先嚐試使用python,谷歌一天後,我的舊大腦更加難倒。從抓取的網頁中提取值
我已經使用pycurl登錄通過ntlm代理和刮頁,然後使用beautifulsoup來美化結果。
我想從美化輸出中提取3個值並將它們存儲爲變量。該頁面是動態生成的,因此它們在頁面上的位置不斷變化。 3個標籤只在頁面上出現一次,並且它們的位置與它們各自的值相比是恆定的。
如何從美化輸出中提取Value1,Value2和Value3並將它們存儲爲變量。
這3個oneliners是我需要做的python。
grep -A 3「Label1」prettify.txt | tail -n 1 | awk'{print $ 1}'
grep「Label2」prettify.txt | awk'{print $ 3}'
grep -B 4「Label3」prettify.txt | awk'{print $ 1}'RS = [FS =] |尾-n 1
提取1
<b>
<font color="Red">
Label1
</font>
<font color="blue">
Value1
</font>
</b>
<br />
Label2: Value2
<br />
提取2
<li>
<font color="green">
[value3]
</font>
<font color="red">
Label3
</font>
</li>
什麼問題?你試過了什麼代碼?什麼不行? –
問題:如何從美化輸出中提取Value1,Value2和Value3並將它們存儲爲變量。 – newb
提示:**更新**問題是期望。評論沒有幫助,因爲它只是重複了這個問題。 –