我已經搜索了很多關於BeautifulSoup和一些建議lxml作爲BeautifulSoup的未來,雖然這是有道理的,我有一個艱難的時間從一個整體解析下表網頁上的表格列表。請幫助解析這個HTML表格使用BeautifulSoup和lxml pythonic方式
我感興趣的是具有不同行數的三列,具體取決於頁面和檢查時間。 BeautifulSoup和lxml解決方案非常感謝。這樣我可以要求管理員在開發中安裝lxml。機。
所需的輸出:
Website Last Visited Last Loaded
http://google.com 01/14/2011
http://stackoverflow.com 01/10/2011
...... more if present
下面是一個混亂的網頁的代碼示例:
<table border="2" width="100%">
<tbody><tr>
<td width="33%" class="BoldTD">Website</td>
<td width="33%" class="BoldTD">Last Visited</td>
<td width="34%" class="BoldTD">Last Loaded</td>
</tr>
<tr>
<td width="33%">
<a href="http://google.com"</a>
</td>
<td width="33%">01/14/2011
</td>
<td width="34%">
</td>
</tr>
<tr>
<td width="33%">
<a href="http://stackoverflow.com"</a>
</td>
<td width="33%">01/10/2011
</td>
<td width="34%">
</td>
</tr>
</tbody></table>
您想要什麼結果?一個字典條目與sitename和日期? 什麼是html的來源?它在你的控制之內嗎? – Spaceghost 2011-01-21 17:33:17
不幸的是,html的來源不在我的控制之下。字典條目將起作用,只是沒有。如「所需輸出」部分所示,各行的行數會有所不同。沒有與該表關聯的類,因此如果表中有內容中的「網站」,那麼我們會抓取該數據。 – ThinkCode 2011-01-21 17:37:53