2010-11-03 114 views
1

的兩個部分之間搜索是否有可能只是運行兩個字符串之間包含一個網頁上的內容好湯?美麗的湯 - 文檔

已經多次跑起來反對使用雅虎管道屏幕抓取的限制,我用美麗的湯,這部分是因爲一個託管版本可以在Scraperwiki開始。

一個關於雅虎管道的HTML導入塊的好用的東西是,它可以讓你找出一個字符串開始和停止線,這樣可以限制刮到頁面的特定區域。

我發現從/在美麗的湯特定字符串刮/的方式:

def scrapeFrom(soup,txt,el,attr=''):
start=soup.find(text=txt)
return start.findAllNext(el,attr)

,但不能看到如何轉儲一切字符串的下游?

也就是說,我希望能夠說「scrapeFromUntil(湯,fromText,untilText)」,只有那些湊兩個字符串之間的標籤?

任何想法如何做到這一點?

回答