2010-02-25 67 views
5

我正在尋找一個通用的API/Web服務/工具/等......它允許將給定的HTML頁面轉換爲儘可能具體的RDF圖形(最有可能使用背骨本體和/或映射器)。將HTML轉換爲RDF

+1

你對HTML文檔的內容有任何控制權嗎?還是它必須是任何隨機文件? – Scott 2010-02-25 15:52:40

+0

它可以是任何HTML文檔。我需要將HTML文檔的結構提取到RDF圖中。如果轉換使用骨幹映射器/本體,那麼它更好。 – jaxvy 2010-02-26 20:44:00

+0

看起來XSPARQL可以通過根據本體編寫的自定義查詢來實現... – jaxvy 2010-02-26 21:13:55

回答

2

我用XQuery從給定的網頁集中提取數據。我必須爲網頁編寫自定義查詢。我認爲這是針對特定的一組HTML文件採取的最直接的方法。但是,對一般情況來說顯然不好。對於不同的網頁集,需要編寫其他自定義查詢。

2

你證明了GRDDL

GRDDL是獲得RDF從XML文件和 尤其是XHTML頁面 數據的技術。

0

我用JSoup從HTML中抓取數據。它使用查詢HTML DOM的jQuery風格,至此我已經熟悉了,所以它是真正簡單的工具,可供我使用。我也資助它相當強大,但我需要它只是爲了刮掉3個數據源,所以我沒有豐富的經驗與這個工具呢。 jsoup