我正在準備一些針對傳統應用程序的自定義性能測試,這些應用程序會輸出由於所有常見原因而無法立即更改的非標準HTML(缺少標記,重複的引號,缺少的引號,作品)。類似於BeautifulSoup和「HTML敏捷包」但C或Java的庫?
我在找一個類似於BeautifulSoup或「HTML Agility Pack」的庫,它可以在UNIX主機上從C或Java調用。
我們將構建一些測試腳手架,然後開始重新設計和重新實現,但我需要首先進行一些基線測量。
我正在準備一些針對傳統應用程序的自定義性能測試,這些應用程序會輸出由於所有常見原因而無法立即更改的非標準HTML(缺少標記,重複的引號,缺少的引號,作品)。類似於BeautifulSoup和「HTML敏捷包」但C或Java的庫?
我在找一個類似於BeautifulSoup或「HTML Agility Pack」的庫,它可以在UNIX主機上從C或Java調用。
我們將構建一些測試腳手架,然後開始重新設計和重新實現,但我需要首先進行一些基線測量。
TagSoup - http://home.ccil.org/~cowan/XML/tagsoup/
jsoup - http://jsoup.org/
jsoup:Java的HTML解析器 jsoup是一個Java庫與現實世界的HTML工作。它提供了一個非常方便的API來提取和操作數據,使用最好的DOM,CSS和類似jquery的方法。
我希望我能接受這兩個答案。 – florin 2010-08-04 13:18:07