html-content-extraction

4熱度

5回答

我正在研究一種算法，它會嘗試挑選出給定HTML文件，它認爲是最有可能包含頁面內容文本大部分的父元素。例如，它會選擇在以下HTML中的div「內容」： <html> <body> <div id="header">This is the header we don't care about</div> <div id="content">This is the <

19熱度

8回答

C＃ - 解析網頁的最佳方法？

我已將整個網頁的html保存爲字符串，現在我想從鏈接中抓取「href」值，最好能夠稍後將它們保存到不同的字符串中。什麼是最好的方法來做到這一點？我試過保存字符串作爲一個.xml文檔和使用XPathDocument的導航解析它，而是（驚喜驚喜）不瀏覽一個不真正-AN-XML的文檔太清楚了。是否正則表達式最佳方法來實現我想要完成的？

3熱度

2回答

使用selectorgadget.com解析HTML文件

如何使用美麗的湯和selectorgadget來刮掉網站。例如，我有一個網站 - (a newegg product)，我希望我的腳本能夠返回該產品的所有規格（點擊規格），我的意思是 - 英特爾，臺式機......，2.4GHz，1066Mhz，。 .....，3年有限。使用selectorgadget後，我得到了與字符串 .desc 如何使用呢？謝謝:)

0熱度

3回答

從網站提取信息

並非每個網站都能很好地顯示其數據，包括XML提要，API等我怎麼能從網站上提取信息？例如： ... <div> <div> <span id="important-data">information here</span> </div> </div> ... 我來自Java編程和使用Apache XMLBeans編碼的背景。當我知道結構和數據在已知標籤之間

8熱度

5回答

用於從HTML頁面提取內容（不包括導航）的python方法

當然，可以使用任意數量的python解析器來解析HTML頁面，但我很驚訝，似乎沒有任何公共解析腳本可以提取來自給定HTML文檔的有意義的內容（不包括側邊欄，導航等）。我猜這是收集DIV和P元素，然後檢查他們的最小量的文本內容，但我相信一個穩定的實現將包括我沒有想到的很多事情。

0熱度

6回答

提取HTML圖像屬性的RegEx

我需要RegEx模式來提取圖像標記的所有屬性。衆所周知，HTML中存在大量格式錯誤的HTML，因此該模式必須涵蓋這些可能性。我一直在尋找這種解決方案https://stackoverflow.com/questions/138313/how-to-extract-img-src-title-and-alt-from-html-using-php，但它並沒有完全得到這一切：我拿出這樣的： (a

1熱度

2回答

將RSS條目映射到HTML主體w。非精確搜索

你會如何解決這個問題？你在刮博客的HTML。博客的某些HTML是博客文章，其中一些是格式化，側邊欄等。您希望能夠分辨HTML中的哪些文本屬於哪個帖子（即永久鏈接）（如果有的話）。我知道你在想什麼：你可以看看RSS並忽略HTML！但是，RSS通常只包含非常短的摘錄或刪除您可能感興趣的鏈接。您希望通過同一頁面的HTML和RSS一起打敗RSS的摘錄。的RSS條目如下： title excer

45熱度

9回答

提取正則表達式匹配的部分

我想要一個正則表達式從HTML頁面中提取標題。目前我有這個： title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') 是否有一個正則表達式只提取內容，所以我不必刪

3熱度

2回答

在PHP中的HTML評論刮

我一直在環顧四周，但還沒有找到解決方案。我試圖抓取一個HTML文檔，並獲得兩個評論之間的文本，但迄今爲止尚未成功完成。我正在使用PHP，並嘗試過在這裏推薦的PHP簡單DOM解析器多次，但似乎無法讓它做我想做的事情。這裏的（部分），我要解析的頁面： <div class="class">  text