基本上,我想提取字符串「AAA」,「BBB」,「CCC」,從文本文件「DDD」 ..提取字符串
...... (other text goes here).....
<TD align="left" class=texttd><font class='textfont'>AAA</font></TD>
..... (useless text here).....
<TD align="left" class=texttd><font class='textfont'>BBB</font></TD>
....(more text).....
<TD align="left" class=texttd><font class='textfont'>CCC</font></TD>
<TD align="left" class=texttd><font class='textfont'>DDD</font></TD>
......(more text).....
我想是這樣,如果我做: -
數據= FOO( 「file.txt的」)
我得到: -
data = ['AAA','BBB','CCC','DDD']
什麼是最好的方法?我的文件並不大..
我想這樣做,而不使用第三方庫.. Bcos,我真的不想要HTML處理..我的目標只是提取這些字符串.. – 2010-03-17 17:42:42
@shadyabhi,不使用庫是一個愚蠢的目標。 HTML解析器是正在嘗試執行的任務(解析HTML)的正確工具,並提供了一種編寫簡單而簡潔的函數的方法。 – 2010-03-17 17:46:27
@Dominic,lxml現在可能是一個更好的選擇,因爲它仍然在積極開發之中。 – 2010-03-17 17:46:51