因此,我的代碼從URL中檢索HTML文件並將其保存爲文本文檔。查找從關鍵字到關鍵字的字符串部分
urllib.urlretrieve("http://www.testlink.com", "example.txt")
retrieve = open("example.txt", "r")
然後,我希望它從包含關鍵字的行中拉出特定的文本。該字符串應該是這樣的:
<b class="whb">This is the text I want to retrieve</b> This is additional text that I don't want.
目前,我的代碼打印整行,像這樣:
for line in retrieve.readlines():
if '<b class="whb">' in line:
print line
如何指定要打印的一條線的一部分?我想要什麼之間b class =「whb」和/ b。
謝謝。
使用一個html解析器,然後拉出所有具有類whb的'b'標籤。您可以使用標準庫中的[HtmlParser類](https://docs.python.org/2.7/library/htmlparser.html#module-HTMLParser)輕鬆完成此操作。 – ekhumoro
@ekhumoro下面的文檔的代碼片段沒有奏效。無法結合str和文件對象 –
我會使用[BeautifulSoup](http://www.crummy.com/software/BeautifulSoup/bs4/doc/)。不要重新發明輪子! – jorgeh