2010-11-08 26 views
7

我一直在做很多研究,找出編寫應用程序以從幾乎任何HTML網頁獲取主要文章內容的最佳方法。我有一個使用libxml2解析XML的C程序,但我遇到了Alchemy API,它看起來像我想要的。HTML文章內容提取 - 鍊金術API替代

但是,它只有一個在線API,我想在不依賴任何外部呼叫的情況下將應用程序保留在內部。

那麼有人有提示嗎?我希望能有一個能夠完成Alchemy API可以做的(付費/不付費)的離線選擇。

我的選擇可能是解析HTML並使用NLP(自然語言處理)技術和其他方法來獲取主要文章內容。它將使用的網站類型包括帶有新聞部分或博客的網站。

+1

我相信您錯誤地標記了此問題。 「Alchemy」標籤指的是Adobe Alchemy。我猜你是在談論http://www.alchemyapi.com – Gunslinger47 2010-11-11 20:33:46

回答

4

有一些開源工具可用於執行類似的文章提取任務。 https://github.com/jiminoc/goose這是Gravity.com的開源代碼

它具有關於wiki的信息以及您可以查看的源代碼。有幾十個單元測試可以顯示從各種文章中提取的文本。

+0

你知道任何類似鵝的其他選擇,但在PHP? – 2011-11-17 22:35:44

0

AlchemyAPI還提供內部部署解決方案,以便您不必在線訪問它。一般來說,我們擁有預置解決方案的客戶如果有特殊的安全性或延遲要求,就會使用它。有關內部部署解決方案的更多信息,請訪問:http://www.alchemyapi.com/products/on-premise/

+0

該鏈接現在無效;內部部署解決方案已停止。 – Naffi 2015-05-21 14:04:27