我一直在做很多研究,找出編寫應用程序以從幾乎任何HTML網頁獲取主要文章內容的最佳方法。我有一個使用libxml2解析XML的C程序,但我遇到了Alchemy API,它看起來像我想要的。HTML文章內容提取 - 鍊金術API替代
但是,它只有一個在線API,我想在不依賴任何外部呼叫的情況下將應用程序保留在內部。
那麼有人有提示嗎?我希望能有一個能夠完成Alchemy API可以做的(付費/不付費)的離線選擇。
我的選擇可能是解析HTML並使用NLP(自然語言處理)技術和其他方法來獲取主要文章內容。它將使用的網站類型包括帶有新聞部分或博客的網站。
我相信您錯誤地標記了此問題。 「Alchemy」標籤指的是Adobe Alchemy。我猜你是在談論http://www.alchemyapi.com – Gunslinger47 2010-11-11 20:33:46