打開xml文件，找到網址，打開鏈接並搜索值 - python lxml

我打開一個xml文件，使用lxml，並且在保存到一個新的xml文件之前已經做了大量編輯，所有這些工作正常。在我打開的XML中，我有一個URL鏈接到一個網頁。在網頁中有一些值，我想記錄和使用我的開放式XML。我已經搜索，但無法找到從哪裏開始。打開xml文件，找到網址，打開鏈接並搜索值 - python lxml

親切的問候。

更新 -

我使用下面的代碼從我的XML閃耀的URL，這是工作。然後我就可以讀取所有的頁面到數據變量，打印精細：

url = tree.find("//video/products/product/read_only_info/read_only_value[@key='storeURL-GB']") 
if url is not None: 
    url = url.text 
    data = urllib2.urlopen(url) 
    data = data.read() 
    print data

我怎樣才能找到埋藏在網頁中的特定字符串，這裏有一塊我想要得到的網頁數據的：

<div id="content"> 

    <div class="padder"> 

    <div id="title" class="intro"> 
     <div class="left"> 
     <h1>This is the title</h1> 
     &nbsp;&nbsp;<span rating-system="bbfc" rating-id="37" class="content-rating">15</span> 
     <h2>this is more text</h2> 
     </div> 
     <div class="right"> 
     <a href="https://rthuere.erwerwer.ghty4e.fdfsdf.com" class="view-more">View More In Sci-Fi &amp; Fantasy</a> 

     </div>

我需要獲得價值「查看更多科幻&幻想」或任何其他價值是存在的。

親切的問候。

來源

2013-07-11 speedyrazor

給出一個示例xml和代碼，顯示你已經完成了。 – falsetru

查看ElementTree及其在Python文檔中的示例 – Mark

如果你想獲得全部節點的文本，可以使用Beautifulsoup做到這一點：

soup = BeautifulSoup(html_page) 
for link in soup.findAll('a'): 
    print link.text

這是否回答你的問題？

來源

2013-07-11 16:17:59

是否有相當於na lxml的對象，因爲這是我已經使用的？ – speedyrazor

我使用下面的代碼打開，然後搜索特定的文本，這是工作。

data = urllib2.urlopen(url) 
data = data.read() 
primaryGenre = data 

if "View More In Sci-Fi &amp; Fantasy" in data: 
    then do something else

問候。

來源

2013-07-12 06:27:12 speedyrazor

這應該是一個**答案**？如果您想要提出其他問題，請不要在答案中這樣做。編輯問題，而不是（或者可能問一個新問題）。 – mzjn

是的，這是答案，我編輯它，歡呼。 – speedyrazor

打開xml文件，找到網址，打開鏈接並搜索值 - python lxml

回答

相關問題