是否有人將BeautifulSoup與ASP.NET/C#集成(可能使用IronPython或其他方式)? 是否有BeautifulSoup替代或與ASP.NET/C#BeautifulSoup和ASP.NET/C#
很好地工作規劃使用圖書館的目的端口是提取從任何隨機URL可讀文本。
感謝
是否有人將BeautifulSoup與ASP.NET/C#集成(可能使用IronPython或其他方式)? 是否有BeautifulSoup替代或與ASP.NET/C#BeautifulSoup和ASP.NET/C#
很好地工作規劃使用圖書館的目的端口是提取從任何隨機URL可讀文本。
感謝
Html Agility Pack是一個類似的項目,但對於C#和.NET
編輯:
提取所有可讀文本:
document.DocumentNode.InnerText
注意,這將返回<script>
標籤的文字內容。
爲了解決這個問題,你可以刪除所有<script>
標籤,就像這樣:
foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
script.Remove();
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
style.Remove();
(來源:SLaks)
我知道這是很老,但我還是決定發佈本作以後的參考。 我遇到了這個搜索類似的解決方案。
我發現內置的HTML敏捷性包頂部的庫調用scrapysharp
我在十分相似的方式使用它,因爲我會BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home
你可以試試這個,雖然它目前有幾個錯誤:
我怎麼會使用https AP從HTML頁面中獲取可讀文本。在BeautifulSoup中,這很容易做到。 – user300981 2010-07-28 21:44:56
我已更新我的答案 – 2010-07-29 08:47:43
DocumentNode.InnerText是否獲取
標記中的所有文本。我擔心的是,我需要爲不符合任何標準的網址提供支持。有可能是所有的垃圾。 HAP足夠智能,可以區分可讀文本和不相關的HTML標籤,註釋,客戶端腳本 – user300981 2010-07-30 13:43:18