2013-07-11 37 views
0

我打開一個xml文件,使用lxml,並且在保存到一個新的xml文件之前已經做了大量編輯,所有這些工作正常。 在我打開的XML中,我有一個URL鏈接到一個網頁。在網頁中有一些值,我想記錄和使用我的開放式XML。我已經搜索,但無法找到從哪裏開始。打開xml文件,找到網址,打開鏈接並搜索值 - python lxml

親切的問候。

更新 -

我使用下面的代碼從我的XML閃耀的URL,這是工作。然後我就可以讀取所有的頁面到數據變量,打印精細:

url = tree.find("//video/products/product/read_only_info/read_only_value[@key='storeURL-GB']") 
if url is not None: 
    url = url.text 
    data = urllib2.urlopen(url) 
    data = data.read() 
    print data 

我怎樣才能找到埋藏在網頁中的特定字符串,這裏有一塊我想要得到的網頁數據的:

<div id="content"> 

    <div class="padder"> 

    <div id="title" class="intro"> 
     <div class="left"> 
     <h1>This is the title</h1> 
     &nbsp;&nbsp;<span rating-system="bbfc" rating-id="37" class="content-rating">15</span> 
     <h2>this is more text</h2> 
     </div> 
     <div class="right"> 
     <a href="https://rthuere.erwerwer.ghty4e.fdfsdf.com" class="view-more">View More In Sci-Fi &amp; Fantasy</a> 

     </div> 

我需要獲得價值「查看更多科幻&幻想」或任何其他價值是存在的。

親切的問候。

+2

給出一個示例xml和代碼,顯示你已經完成了。 – falsetru

+0

查看ElementTree及其在Python文檔中的示例 – Mark

回答

0

如果你想獲得全部節點的文本,可以使用Beautifulsoup做到這一點:

soup = BeautifulSoup(html_page) 
for link in soup.findAll('a'): 
    print link.text 

這是否回答你的問題?

+0

是否有相當於na lxml的對象,因爲這是我已經使用的? – speedyrazor

0

我使用下面的代碼打開,然後搜索特定的文本,這是工作。

data = urllib2.urlopen(url) 
data = data.read() 
primaryGenre = data 

if "View More In Sci-Fi &amp; Fantasy" in data: 
    then do something else 

問候。

+0

這應該是一個**答案**?如果您想要提出其他問題,請不要在答案中這樣做。編輯問題,而不是(或者可能問一個新問題)。 – mzjn

+0

是的,這是答案,我編輯它,歡呼。 – speedyrazor