我需要幫助從網頁中提取信息。我給網址,然後我需要提取信息,如聯繫電話號碼,地址,href,人名等。我能夠提供完整的頁面源提供的URL與已知標籤。但是我需要一個通用的源代碼來從任何URL中提取這些數據。我使用正則表達式來提取電子郵件,例如如何使用json或xml格式的python從網頁中提取信息?
import urllib
import re
#htmlfile=urllib.urlopen("http://www.plainsboronj.com/content/departmental-directory")
urls=["http://www.plainsboronj.com/content/departmental-directory"]
i=0
regex='\b[A-Za-z0-9._%+-][email protected][A-Za-z0-9.-]+\.[A-Za-z]{2,6}\b'
pattern=re.compile(regex)
print pattern
while i<len(urls):
htmlfile=urllib.urlopen(urls[i])
htmltext=htmlfile.read()
titles=re.findall(pattern,htmltext)
print titles
i+=1
這給了我空的列表。任何幫助提取所有信息,如上所述,將不勝感激。 這個想法是給出一個URL,並提取所有的信息,如姓名,電話號碼,電子郵件,地址等以json或xml格式。謝謝大家...!!
你確定你的正則表達式是正確的嗎?我已經下載了您正在訪問的文件,並根據您的表達式進行了過濾,結果隨我正在使用的正則表達式的類型(我使用Ultra Edit文本編輯器(Perl和UNIX正則表達式)和Cygwin UNIX模擬器)而變化。請注意,正則表達式語法取決於底層技術。 – Dominique
當我在python腳本中運行它時,正則表達式工作正常。請給我一些建議,以實現我的其餘目標。我甚至將http://regexr.com/上的正則表達式與示例進行了比較,工作正常 –