我想創建一個類似Instapaper或Readability的工具,我想知道從網頁中查找和獲取文本的最佳方式是什麼。你有什麼想法?如何檢查頁面的哪一部分是文章?
-5
A
回答
1
的問題是過於寬泛,給出一個具體的答案,但你可以在這個問題分成三個關注點:抓住網絡資源的一種方式
。例如
libcurl
,或者幾乎任何能夠說話的東西HTTP
。A
DOM
解析器。例如,Python有xml.dom.minidom
。一種遍歷
DOM
樹和提取文本的算法。無論是用class=article
還是<div>
來掃描超過1024個字符等,都完全取決於您。你需要實驗才能做到這一點。
我建議爲這些問題分別提出問題。當然,在對每一個進行研究之後。 :)
1
這是一個讓你開始使用Ruby的想法。剛剛測試了下面的代碼,它對我來說工作正常。看看它可以幫助你。
require 'open-uri'
require 'cgi'
require 'nokogiri'
$url='http://www.stackoverflow.com'
$txt_file = open($url)
$raw_contents = $txt_file.read
$html = Nokogiri::HTML(CGI.unescapeHTML($raw_contents)).content
#strip the web page fetched out of all hmtl tags and encoded chars
$txt_file = File.new('c:\ruby193\bin\web-content\stack.txt', "w")
#stack.txt now contains a stripped, pure txt file which you can manipulate further
$txt_file.write($html)
$txt_file.close
puts 'Here is the stripped text of your webpage\n'+$html
相關問題
- 1. 如何在維基百科檢查頁面是否爲文章?
- 2. 檢查文章頁
- 3. 檢查url是否是應用程序頁面的一部分
- 4. 如何檢查你是哪一頁? [HTML]
- 5. 鏈接到MediaWiki:檢查,如果當前頁面是一篇文章頁
- 6. 如何檢測頁面是否是Joomla文章或分類博客視圖
- 7. Joomla文章頁面:代碼檢查是否已發佈
- 8. 如何檢查div是否是jquery中頁面的特定部分
- 9. 如何在同一頁面底部添加文章頁面網址?
- 10. 檢查當前頁面是否是wordpress中的分類頁面?
- 11. 如何檢查,該部分的哪一行已被竊聽?
- 12. 如何嵌入頁面的一部分?
- 13. 如何檢查用戶是否在html頁面的頂部?
- 14. 檢索部分頁面體
- 15. 如何在文章頁面顯示3篇以前的文章?
- 16. 如何檢查jquery文章的結果?
- 17. 如何辨別谷歌本文是否爲另一篇文章的一部分
- 18. 如何檢查.dll是否是.net 2.0 Framework的一部分?
- 19. 如何檢查Word段落是否是目錄的一部分?
- 20. 如何檢查頁面是否存在?
- 21. 檢查某個部分是否爲頁面
- 22. 修改瀏覽哪一頁突出顯示頁面的哪一部分
- 23. 博客文章分隔頁面?
- 24. 如何檢查文檔沒有頁面
- 25. 如何下載Facebook頁面文章
- 26. 如何檢查我在哪個頁面上,或者哪個是當前頁面的控制器?
- 27. 快速檢查控件所在頁面生命週期的哪個部分在
- 28. CodeIgniter查看博客文章頁面
- 29. 如何檢查當前頁面是否是Ionic2的主頁?
- 30. 你如何檢查下一個/上一篇文章的類別?
既然你沒有談論technolgies或算法,絕對最好的辦法是打開Web瀏覽器,打開所需的網頁,複製相關的文本,並將其粘貼到你的數據庫。 – Amberlamps