這裏有一堆HTML文本提取工具。主要用於Java或Python。我遇到的最常見的是鍋爐。這裏和那裏有幾個API,有些似乎工作得很好。有誰知道在PHP中的任何事情嗎?用於php的html文本提取
3
A
回答
0
你可以嘗試phpQuery:
0
DomDocument是在PHP中使用的一類,如果你有libxml的支持,可以解析HTML文件,讓你在它們之間迭代或發行XPath查詢來查找特定的節點DOM樹。這是理想的方法。或者,如果文本足夠簡單且均勻,則可以使用preg_match()從數據中提取文本,使用Regular Expressions。
+2
Oooh,在那裏生活危險。你可以被釘死在暗示你在這裏知道(你知道我在說什麼)。標準鏈接出現之前需要多長時間...? – DaveRandom 2012-07-07 22:36:58
+0
@DaveRandom :)是的,我知道你的意思。我試圖對這種事情保持務實,因爲有時候它可能也會起作用。 – drew010 2012-07-08 02:28:04
相關問題
- 1. preg_match,regexp,php,從html中提取文本
- 2. 提取文本PHP
- 3. 文本提取PHP
- 4. 如何使用PHP從HTML文件中提取所有文本?
- 5. C#Regrex提取HTML文本
- 6. 從HTML中提取文本
- 7. 從html中提取文本?
- 8. 從HTML中提取文本
- 9. 從HTML文本提取標題文本
- 10. 鑑於HTML文件提取只是有意義的文本
- 11. 使用XPATH從html中提取文本
- 12. 使用PhantomJS提取HTML和文本
- 13. 使用jquery從html中提取文本
- 14. 使用Javascript從HTML中提取文本
- 15. 使用python從html中提取文本
- 16. 使用Javascript從HTML中提取文本
- 17. PHP中提取文本
- 18. 提取文本從PHP
- 19. 使用PHP從HTML獲取文本
- 20. 從PHP中提取HTML中的所有文本和img標籤。
- 21. 從html文件中提取文本python
- 22. 從html文件中提取文本
- 23. 來自HTML的警報提取文本
- 24. 提取HTML標記之間的文本
- 25. 的Html庫中提取文本
- 26. PHP HTML DOM提取標籤的文本,而不包括嵌套標籤文本
- 27. 如何從PHP文件中提取HTML?
- 28. 使用j2me從HTML文本框中提取文本
- 29. 用PHP提取腳本的html註釋上的負面lookbehind
- 30. PHP從html頁面提取所有文本
定義「html文本提取」。你在找[DOM](http://php.net/manual/en/book.dom.php)嗎? – DaveRandom 2012-07-07 22:35:10
不,就像你在iOS上所瞭解的那樣,他們有「讀者」,它會將網站上的所有垃圾(比如增加,導航等)拿出來,只是顯示內容以便閱讀?這就是我的意思 – Bill 2012-07-08 19:00:08