我正在研究一個項目,該項目需要我編寫一些代碼才能從python中的html文件中提取一些文本。我感興趣的HTML文件的使用python正則表達式從html文件中提取文本的問題
<tr>
<td>Target binary file name:</td>
<td class="right">Doc1.docx</td>
</tr>
^小部分。
#! /usr/bin/python
import os
import re
if __name__ == '__main__':
f = open('./results/sample_result.html')
soup = f.read()
p = re.compile("binary")
for line in soup:
m = p.search(line)
if m:
print "finally"
break
^示例代碼我寫來測試,如果我能提取數據出來。 我已經寫了幾個類似這樣的程序來從txt文件中提取文本幾乎完全相同,他們工作得很好。有沒有我錯過了正則表達式和HTML?
http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html – deinst 2010-07-31 13:05:43
請不要用正則表達式解析HTML(http://stackoverflow.com)/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454) – NullUserException 2010-07-31 13:21:51
@deinst,很棒的鏈接,我笑了。 @OP,這是非常正確的一點。你只是不應該用正則表達式解析html。試試lxml或BeautifulSoup的魔力,你永遠不會想再回到正則表達式。 – 2010-07-31 13:30:33