BeautifulSoup和ASP.NET/C#

是否有人將BeautifulSoup與ASP.NET/C＃集成（可能使用IronPython或其他方式）？是否有BeautifulSoup替代或與ASP.NET/C#BeautifulSoup和ASP.NET/C#

很好地工作

規劃使用圖書館的目的端口是提取從任何隨機URL可讀文本。

感謝

來源

2010-07-28 user300981

Html Agility Pack是一個類似的項目，但對於C＃和.NET

編輯：

提取所有可讀文本：

document.DocumentNode.InnerText

注意，這將返回<script>標籤的文字內容。

爲了解決這個問題，你可以刪除所有<script>標籤，就像這樣：

foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) 
    script.Remove(); 
foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) 
    style.Remove();

（來源：SLaks）

來源

2010-07-28 20:26:35

我怎麼會使用https AP從HTML頁面中獲取可讀文本。在BeautifulSoup中，這很容易做到。 – user300981 2010-07-28 21:44:56

我已更新我的答案 – 2010-07-29 08:47:43

DocumentNode.InnerText是否獲取標記中的所有文本。我擔心的是，我需要爲不符合任何標準的網址提供支持。有可能是所有的垃圾。 HAP足夠智能，可以區分可讀文本和不相關的HTML標籤，註釋，客戶端腳本 – user300981 2010-07-30 13:43:18

我知道這是很老，但我還是決定發佈本作以後的參考。我遇到了這個搜索類似的解決方案。

我發現內置的HTML敏捷性包頂部的庫調用scrapysharp

我在十分相似的方式使用它，因爲我會BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home

來源

2013-07-04 13:44:59

你可以試試這個，雖然它目前有幾個錯誤：

http://nsoup.codeplex.com/

來源

2013-10-06 15:13:53 Adam

BeautifulSoup和ASP.NET/C#

回答

相關問題