2013-10-04 51 views
1

下面是代碼:Outwit Hub - 標記和Lookahead可能?

<div>23 Anywhere Ave<br />Someplace<br />Somewhere 1234</div> 

欲刮除所得三行

23 Anywhere Ave<br />Someplace<br />Somewhere 1234</div> 

成單獨的列。我可以通過設置<div>作爲前方標記和<br />作爲後方標記來刮掉第一個字符串(23 Anywhere Ave)。 之後就卡住了。我已經嘗試將前置標記設置爲<div>(?=)<br />),/<div>(?=)<br />)/(Outwit顯然需要在製作正則表達式語句時)和<div>/(?=)/<br />)以獲得第二個值,但沒有運氣。

我意識到正則表達式不適合解析HTML,但this post表明它在Outwit體系結構中的某些上下文中可以正常工作。

+0

你能發佈一個鏈接到源URL嗎? –

+0

它似乎以前在這個問題上的信件被刪除。放棄了,現在正在使用Scrapy。無論如何感謝您的關注。 –

+0

看看我們正在做什麼在http://www.import.io你可能會發現它有幫助。 –

回答

0

在自動化工程師/刮板把這個隔板:BR 然後在標籤列表:街道,城市,郵編

BR, 尤西比奧。