2010-07-28 26 views
6

是否有人將BeautifulSoup與ASP.NET/C#集成(可能使用IronPython或其他方式)? 是否有BeautifulSoup替代或與ASP.NET/C#BeautifulSoup和ASP.NET/C#

很好地工作

規劃使用圖書館的目的端口是提取從任何隨機URL可讀文本。

感謝

回答

9

Html Agility Pack是一個類似的項目,但對於C#和.NET


編輯:

提取所有可讀文本:

document.DocumentNode.InnerText 

注意,這將返回<script>標籤的文字內容。

爲了解決這個問題,你可以刪除所有<script>標籤,就像這樣:

foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) 
    script.Remove(); 
foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) 
    style.Remove(); 

(來源:SLaks

+0

我怎麼會使用https AP從HTML頁面中獲取可讀文本。在BeautifulSoup中,這很容易做到。 – user300981 2010-07-28 21:44:56

+0

我已更新我的答案 – 2010-07-29 08:47:43

+0

DocumentNode.InnerText是否獲取標記中的所有文本。我擔心的是,我需要爲不符合任何標準的網址提供支持。有可能是所有的垃圾。 HAP足夠智能,可以區分可讀文本和不相關的HTML標籤,註釋,客戶端腳本 – user300981 2010-07-30 13:43:18

0

我知道這是很老,但我還是決定發佈本作以後的參考。 我遇到了這個搜索類似的解決方案。

我發現內置的HTML敏捷性包頂部的庫調用scrapysharp

我在十分相似的方式使用它,因爲我會BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home