2014-08-31 25 views
-3

我想弄清楚我需要添加到這個代碼,所以在url源被讀取後,我可以消除一切,但在標籤之間的文本,然後讓它打印結果需要的代碼來從url獲得特定的文本

import urllib.request 

req = urllib.request.Request('http://myurlhere.com') 
response = urllib.request.urlopen(req) 
the_page = response.read() 
print (the_page) 

回答

0

您需要一個HTML解析器。

例使用BeautifulSoup(它支持Python-3.X):

import urllib.request 
from bs4 import BeautifulSoup 

req = urllib.request.Request('http://onlinepermits.co.escambia.fl.us/CitizenAccess/Cap/CapDetail.aspx?Module=Building&capID1=14ACC&capID2=00000&capID3=00386&agencyCode=ESCAMBIA') 
response = urllib.request.urlopen(req) 
soup = BeautifulSoup(response) 
print(soup.find('td', id='ctl00_PlaceHolderMain_PermitDetailList1_owner').div.table.text) 

打印:

SNB HOTEL INC2607 WILDE LAKE BLVD PENSACOLA FL 32526 
+0

確定好我試圖拉斷的信息有所有者的標題多頁那麼在所有者之後,它有一個段落,就是我需要打印的文本,它是所有者之後的文本,它周圍有td標籤。 – shoka69 2014-08-31 23:33:36

+0

@ shoka69如果您將問題包含在HTML代碼的相關部分 - 我會爲您提供一個解決方案(或者向網站投放鏈接)。 – alecxe 2014-08-31 23:49:46

+0

http://onlinepermits.co.escambia.fl.us/CitizenAccess/Cap/CapDetail.aspx?Module=Building&capID1=14ACC&capID2=00000&capID3=00386&agencyCode=ESCAMBIA它說的所有者 – shoka69 2014-09-01 00:04:59

相關問題