我需要使網絡應用程序類似於谷歌新聞。 我是否需要學習針對該技術或其他技術的HTML報廢是谷歌新聞html scrappping的例子
0
A
回答
1
Google新聞顯示的大部分內容都是RSS/ATOM。與抓取相比,通過RSS提要獲取網站內容太簡單了。
除此之外,如果你可以使用Java,那麼你可以使用優秀的庫Goose自己刮html。它與Flipboard/Instapaper使用的相似
1
最簡單的解決方案是獲取您嘗試從中獲取數據的網站的RSS或ATOM供稿。
這些都是衆所周知的格式,從這些XML提要中提取信息要比從HTML頁面獲取信息容易得多:使用RSS/ATOM,您只需解析XML提要,然後提取標籤包含您感興趣的信息。
不確定你正在使用哪種語言,但有可能你可以找到一些圖書館來幫助你。
如果網站沒有導出RSS/ATOM Feed ...那麼,您可能必須回退到HTML報廢;祝你好運,因爲HTML的結構不如RSS/ATOM:您必須爲每個網站找出頁面中的相關信息。
相關問題
- 1. 刮谷歌新聞
- 2. feedparser和谷歌新聞
- 3. 谷歌新聞框內div
- 4. 谷歌新聞RSS源 -
- 5. 谷歌新聞源內容
- 6. 谷歌新聞如何從不同的新聞網站拉新聞鏈接?
- 7. 谷歌新聞飼料的形式JSON
- 8. 網絡刮python的谷歌新聞
- 9. 從谷歌新聞中提取前10條新聞
- 10. 谷歌新聞站點地圖語法
- 11. 谷歌新聞Api自定義搜索
- 12. 谷歌爬蟲和新聞股票
- 13. 谷歌新聞履帶翻頁
- 14. 谷歌新聞JSON API(主題/標題)
- 15. 谷歌Breakpad的例子
- 16. 谷歌App Engine的例子
- 17. 谷歌分析Android例子
- 18. PHP/HTML新聞稿
- 19. 谷歌鉻和HTML更新
- 20. 谷歌App Engine的例子,改裝
- 21. HTML更新新聞頁面
- 22. 錯誤從谷歌新聞警告讀取XML:的file_get_contents
- 23. 如何讓谷歌新聞的輸出JSON?
- 24. gmail中的html新聞稿
- 25. 谷歌新聞 - 網址方案和主鍵
- 26. 如何從谷歌新聞獲取性反應的JSON而不是XML
- 27. simplepie不解析谷歌新聞rss飼料
- 28. 谷歌財經股票行情新聞搜索框
- 29. 谷歌新聞RSS參數NUM 100只有30個結果
- 30. 從Chrome擴展訪問谷歌新聞div
是否可以通過RSS/ATOM feed獲取有關舊文章的詳細信息? – 2013-01-24 13:00:09