我正在尋找一種方法將HTML表格清晰地轉換爲可讀的純文本格式。純粹的Python解決方案將HTML表格轉換爲可讀的純文本
I.e.給定輸入:
<table>
<tr>
<td>Height:</td>
<td>200</td>
</tr>
<tr>
<td>Width:</td>
<td>440</td>
</tr>
</table>
我期望的輸出:
Height: 200
Width: 440
我寧願不使用外部工具,例如(1)平臺相關,(2)我想對流程有一定的控制,(3)我認爲只用Python就可以實現,無論是否有額外的模塊。
我不需要任何文字包裝或可調整的細胞分離器寬度。將選項卡作爲單元分隔符就足夠了。
謝謝你的代碼示例,但問題是它只處理一個特殊情況,而我的實際輸入有點複雜,包含很多colspans,所以它不會以我想要的方式顯示數據。以下是實際數據的示例:http://pastebin.com/yRQvz2Ww目前,我嘗試過的所有選項(elementree,lxml,BeautifulSoup)都與輸入「w3m -dump」的輸出接近。 – ccpizza
這是一個完全不同的問題 - 我的意思是*給定的輸入*和*預期的輸出*不是你要求的。對於你先問的問題,我的答案正在起作用。 –
我最初的例子是* generic *,最好的答案最好是* generic *。你提出的解決方案確實解決了最簡單的情況,但不是*通用*足夠。 – ccpizza