1
下面是代碼:Outwit Hub - 標記和Lookahead可能?
<div>23 Anywhere Ave<br />Someplace<br />Somewhere 1234</div>
欲刮除所得三行
23 Anywhere Ave<br />Someplace<br />Somewhere 1234</div>
成單獨的列。我可以通過設置<div>
作爲前方標記和<br />
作爲後方標記來刮掉第一個字符串(23 Anywhere Ave)。 之後就卡住了。我已經嘗試將前置標記設置爲<div>(?=)<br />)
,/<div>(?=)<br />)/
(Outwit顯然需要在製作正則表達式語句時)和<div>/(?=)/<br />)
以獲得第二個值,但沒有運氣。
我意識到正則表達式不適合解析HTML,但this post表明它在Outwit體系結構中的某些上下文中可以正常工作。
你能發佈一個鏈接到源URL嗎? –
它似乎以前在這個問題上的信件被刪除。放棄了,現在正在使用Scrapy。無論如何感謝您的關注。 –
看看我們正在做什麼在http://www.import.io你可能會發現它有幫助。 –