1
在此之後page scraping tutorial筆者得到所有圖片的集合頁面上進行如下:使用XmlArrow從頁面獲取第n個元素?
css :: ArrowXml a => String -> a XmlTree XmlTree
css tag = multi (hasName tag)
images tree = tree >>> css "img" >>> getAttrValue "src"
如何我只得到,比如,頁面上的第2圖像?在XmlArrow docs中我找不到getElementAt :: Int -> blah
之類的任何功能。
謝謝!
酷文章!我想知道HXT如何處理格式不正確的html? –
它看起來好像處理罰款時提供'withParseHTML'選項... http://hackage.haskell.org/packages/archive/hxt/latest/doc/html/Text-XML-HXT-Arrow-XmlState。 HTML#五:withParseHTML – drozzy