2011-03-09 53 views
2

我正在寫一個小型的Java應用程序,我想用它來搜索RSS Feed以獲得我關心的新聞(我不在乎這樣的應用程序是否存在,我在寫它主要用於學習目的)。我目前使用的信息是我found here to make the reader。代碼是偉大的,但我遇到了一個問題。 RSS提要,如for example here:只適用於最後幾個條目,但是像Google閱讀器這樣的RSS提要可以顯示RSS feed的整個歷史記錄。我將如何閱讀RSS訂閱通過更多的條目?閱讀更多關於Java的RSS Feed

+2

當你獲取'一個RSS feed,你可能會得到唯一可用的飼料/在你獲取的時間發表在這些條目。您可以存儲較舊的條目並創建一個「歷史記錄」。 – Andreas

回答

1

您只能獲取提供的數據。

谷歌有歷史,因爲他們長期投票飼料,並保留所有曾經出現在其中的文章。

+0

我想我將不得不使用XML解析器來簡單瀏覽最近的網站歸檔。謝謝你。 – RedHack

0

RSS提要只是在商定的標準中對內容進行格式化的另一種方式。每當您的應用程序請求來自RSS提要URL的內容時,Web服務器就處理該請求並返回內容(推測格式化爲某種RSS XML標準)。

如果你想確保你不會錯過任何項目,那麼你將不得不定期輪詢RSS feed並保留自己的歷史。

0

自從您提到學習目的並使用Nutch抓取並索引您正在查找的RSS內容以來,您完全可能會瘋了,如果您在單個節點中運行,而不是使用Hadoop的集羣,那麼實際上它非常容易設置。您也可以使用Droid來抓取內容。

或者只是一個簡單的RSS解析器http://www.vogella.de/articles/RSSFeed/article.html#overview_java :)

+1

如果你看看我的文章,那個vogella RSS解析器實際上是我使用/鏈接到的,但我感興趣:什麼是Nutch? – RedHack

+1

http://nutch.apache.org/ Nutch是一個爬蟲,ala Google Bot。你指定一個域名或一個域名列表,讓Nutch做它的事情。它會下載你指定域的所有內容,當然你可以添加更多的配置,只從某些url模式下載,等等。然後你可以編寫你自己的插件來做任何你想要的內容。非常強大的工具... –