我們可以使用wget
或curl
下載網頁的源代碼,但我想提取的頁面沒有標記的源代碼,我是指提取它像文本提取網頁的源代碼,而不使用bash
回答
可以通過管道將一個簡單的sed命令:
curl www.gnu.org | sed 's/<\/*[^>]*>//g'
創建使用引入nokogiri Ruby腳本解析HTML:
require 'nokogiri'
require 'open-uri'
html = Nokogiri::HTML(open 'https://stackoverflow.com/questions/6129357')
text = html.at('body').inner_text
puts text
它很可能是簡單的JavaScript或Python做,如果你更舒服或者搜索一個html-to-text工具。我想這純粹是在bash中完成這件事非常困難。
我說'使用Bash'不是紅寶石 –
只用bash :)祝你好運 - 查看我的編輯和其他帖子的鏈接 – Leventix
使用curl,wget和阿帕奇提卡服務器(本地),你可以在命令行直接解析HTML成簡單的文本。
首先,你必須從Apache網站下載的蒂卡服務器的jar: https://tika.apache.org/download.html
然後,運行它作爲一個本地服務器:
$ java -jar tika-server-1.12.jar
之後,你就可以開始解析文本使用以下網址:
現在,解析網頁INT的HTML o簡單文本:
$ wget -O test.html YOUR-HTML-URL && curl -H "Accept: text/plain" -T test.html http://localhost:9998/tika
這應該返回沒有標籤的網頁文本。
這樣您就可以使用wget下載並保存所需的網頁到「test.html」,然後使用curl向tika服務器發送請求以提取文本。請注意,必須發送標題「Accept:text/plain」,因爲tika可以返回多種格式,而不僅僅是純文本格式。
檢查Tika-服務器維基獲取更多信息: http://wiki.apache.org/tika/TikaJAXRS –
- 1. 提取網頁的源代碼
- 2. 使用Java獲取網頁源代碼
- 3. 獲取網頁源代碼
- 4. 如何讀取網頁的內容,而不是該網頁的源代碼?
- 5. 無法獲取網頁的源代碼
- 6. 使用JSONP從JavaScript網頁獲取源代碼使用JSONP
- 7. 提取來自網站源代碼
- 8. 提取一個Facebook頁面的源代碼中使用JavaScript
- 9. 獲取網頁源代碼,包括javascript
- 10. jnetpcap獲取html網頁源代碼
- 11. Android獲取網頁源代碼
- 12. 顯示內容而不是內容的網頁源代碼
- 13. 使用Facebook登錄以獲取網頁的源代碼(C#)
- 14. 使用請求獲取頁面而不是Python中的源代碼,爲什麼?我如何獲得源代碼?
- 15. 需要使用硒從源代碼提取頁面ID
- 16. 從網頁提取源
- 17. 獲取源代碼,而不是iframe
- 18. 向Eclipse中添加壓縮源代碼而不先提取
- 19. 獲取不凍結的網頁源代碼UI
- 20. 使用c#爲不同瀏覽器獲取網頁的HTML源代碼
- 21. 從APK提取源代碼
- 22. Android:提取html源代碼
- 23. 使用VBA代碼從網頁提取數據
- 24. 獲取HTML頁面源代碼而不是JSON響應
- 25. 如何從C#中的網頁源代碼獲取圖像源代碼#
- 26. Qt - 獲取互聯網上託管的網頁的源代碼(HTML代碼)
- 27. 獲取頁面源代碼
- 28. 獲取頁面源代碼
- 29. 用NSUrl下載網頁源代碼
- 30. 從中提取數據頁面,是不是在源代碼
[bash命令隱蔽html頁面到一個文本文件(可能的重複http://stackoverflow.com/questions/12422289/bash-command -to-covert-html-page-to-a-text-file) – Leventix