0
信息
目前我有以下代碼:使用lxml或???從中提取網頁
# Import der Pythonmodule
import urllib
import lxml
import mechanize
import sys
# Verbindung zum URL aufbauen
try:
URL = urllib.urlopen("http://...")
except:
print "Verbindung zum URL fehlgeschlagen"
sys.exit(0)
# Quellcode des URL lesen
URL_quellcode = URL.readlines()
# Verbindung zum URL beenden
URL.close()
到目前爲止好,我可以打開和讀取URL的來源。現在我想查看各種可能性來提取一些東西。
可能性1: < P類= 「作者名」>有些名稱</P>
可能性2: 相對= 「作者」>有些名稱</A>
我想提取作者姓名。我的邏輯如下:
檢查「author-name」的所有類 - 如果發現給我標籤內的文本。如果沒有找到檢查「rel =」author「 - 如果發現給我的標籤內的文本。如果不打印」沒有找到作者「
我該怎麼做呢?我可以使用正則表達式,lxml,或任何。什麼是最優雅的方式
真棒,就像一個魅力我開始與BS現在,真的很有趣不管怎麼說,我是想知道這將如何工作無線th未知數量的URL。我將從.txt文件加載它們,因此我不能像document_a .b .c等那樣做。基本上,輸出將是URL,Authorname作爲一個列表的打印操作。 – eLudium 2014-10-06 15:10:22
在這種情況下,你需要做一些類似'print [url,get_author(get_document(url))for my_file]'。您必須編寫一個'get_document'函數來從給定的url中檢索HTML數據。 – Kevin 2014-10-06 15:30:48