Q

用於網站解析的庫/工具

2010-09-12 92 views 1 likes

1

我想開始將大量原始HTML頁面解析爲語義數據結構。用於網站解析的庫/工具

只是對這種任務的各種可用工具的社區意見感興趣，特別是各種有用的任何語言的庫。

到目前爲止，計劃使用Hadoop來管理大量的處理，但對備選方案感到好奇。

2010-09-12 Kevin

+0

你什麼意思做'解析HTML轉換成語義數據結構？ – bmargulies 2010-09-12 00:25:37

+0

編寫讀取特定HTML頁面的程序，並選取特定元素存儲在某些本地數據結構中。 – Kevin 2010-09-12 19:04:34

A

回答

0

首先，您需要下載頁面源代碼，然後創建一個DOM樹。如果您在C＃中編寫代碼，您可以使用以下工具創建您的DOM樹。

1）http://htmlagilitypack.codeplex.com/
2）http://www.majestic12.co.uk/projects/html_parser.php

第一個是易於使用，但第二個是速度更快，內存友好，我建議你，如果你想創建一個強大的應用程序中使用第二個

那麼你可以使用提取網頁內容有用：

http://www.chrisspen.com/blog/how-to-extract-a-webpages-main-article-content.html

和許多其他文章你可以找到谷歌搜索來提取網頁內容（提取網頁主要內容）

希望它可以幫助

2012-01-16 07:32:35 Ehsan

相關問題