2013-01-10 64 views
1

在此之後page scraping tutorial筆者得到所有圖片的集合頁面上進行如下:使用XmlArrow從頁面獲取第n個元素?

css :: ArrowXml a => String -> a XmlTree XmlTree 
css tag = multi (hasName tag) 

images tree = tree >>> css "img" >>> getAttrValue "src" 

如何我只得到,比如,頁面上的第2圖像?在XmlArrow docs中我找不到getElementAt :: Int -> blah之類的任何功能。

謝謝!

+0

酷文章!我想知道HXT如何處理格式不正確的html? –

+1

它看起來好像處理罰款時提供'withParseHTML'選項... http://hackage.haskell.org/packages/archive/hxt/latest/doc/html/Text-XML-HXT-Arrow-XmlState。 HTML#五:withParseHTML – drozzy

回答

2

用於處理元素列表的函數可以在ArrowList類型的類中找到。

在這種特殊情況下,您可以使用>>.運算符使用普通列表函數來轉換結果列表。

nthImage n tree = images tree >>. (take 1 . drop n) 
相關問題