html-content-extraction

    4熱度

    5回答

    我正在研究一種算法,它會嘗試挑選出給定HTML文件,它認爲是最有可能包含頁面內容文本大部分的父元素。 例如,它會選擇在以下HTML中的div「內容」: <html> <body> <div id="header">This is the header we don't care about</div> <div id="content">This is the <

    19熱度

    8回答

    我已將整個網頁的html保存爲字符串,現在我想從鏈接中抓取「href」值,最好能夠稍後將它們保存到不同的字符串中。什麼是最好的方法來做到這一點? 我試過保存字符串作爲一個.xml文檔和使用XPathDocument的導航解析它,而是(驚喜驚喜)不瀏覽一個不真正-AN-XML的文檔太清楚了。 是否正則表達式最佳方法來實現我想要完成的?

    3熱度

    2回答

    如何使用美麗的湯和selectorgadget來刮掉網站。例如,我有一個網站 - (a newegg product),我希望我的腳本能夠返回該產品的所有規格(點擊規格),我的意思是 - 英特爾,臺式機......,2.4GHz,1066Mhz,。 .....,3年有限。 使用selectorgadget後,我得到了與字符串 .desc 如何使用呢? 謝謝:)

    0熱度

    3回答

    並非每個網站都能很好地顯示其數據,包括XML提要,API等 我怎麼能從網站上提取信息?例如: ... <div> <div> <span id="important-data">information here</span> </div> </div> ... 我來自Java編程和使用Apache XMLBeans編碼的背景。當我知道結構和數據在已知標籤之間

    8熱度

    5回答

    當然,可以使用任意數量的python解析器來解析HTML頁面,但我很驚訝,似乎沒有任何公共解析腳本可以提取來自給定HTML文檔的有意義的內容(不包括側邊欄,導航等)。 我猜這是收集DIV和P元素,然後檢查他們的最小量的文本內容,但我相信一個穩定的實現將包括我沒有想到的很多事情。

    0熱度

    6回答

    我需要RegEx模式來提取圖像標記的所有屬性。 衆所周知,HTML中存在大量格式錯誤的HTML,因此該模式必須涵蓋這些可能性。 我一直在尋找這種解決方案https://stackoverflow.com/questions/138313/how-to-extract-img-src-title-and-alt-from-html-using-php,但它並沒有完全得到這一切: 我拿出這樣的: (a

    1熱度

    2回答

    你會如何解決這個問題? 你在刮博客的HTML。博客的某些HTML是博客文章,其中一些是格式化,側邊欄等。您希望能夠分辨HTML中的哪些文本屬於哪個帖子(即永久鏈接)(如果有的話)。 我知道你在想什麼:你可以看看RSS並忽略HTML!但是,RSS通常只包含非常短的摘錄或刪除您可能感興趣的鏈接。您希望通過同一頁面的HTML和RSS一起打敗RSS的摘錄。 的RSS條目如下: title excer

    45熱度

    9回答

    我想要一個正則表達式從HTML頁面中提取標題。目前我有這個: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') 是否有一個正則表達式只提取內容,所以我不必刪

    3熱度

    2回答

    我一直在環顧四周,但還沒有找到解決方案。我試圖抓取一個HTML文檔,並獲得兩個評論之間的文本,但迄今爲止尚未成功完成。 我正在使用PHP,並嘗試過在這裏推薦的PHP簡單DOM解析器多次,但似乎無法讓它做我想做的事情。 這裏的(部分),我要解析的頁面: <div class="class"> <!-- blah --> text <!-- end blah -->