我正在使用python構建一個應用程序,它涉及從RSS提要獲取新聞文章。作爲我的項目的一部分,我決定使用boilerpipe來從文章出現的html頁面中提取文章內容。在python中導入鍋爐時遇到問題
儘管boilerpipe最初是爲java編寫的,但它也已被移植到python。你可以在這裏看到在github上其頁:https://github.com/misja/python-boilerpipe
的問題是,我嘗試使用導入它時,會得到一個異常:
from boilerpipe.extract import Extractor
我得到的錯誤是:
Traceback (most recent call last):
File "", line 1, in
File "build\bdist.win32\egg\boilerpipe\extract__init__.py", line 12, in
File "C:\Python26\lib\site-packages\jpype_jclass.py", line 54, in JClass
raise _RUNTIMEEXCEPTION.PYEXC("Class %s not found" % name)
jpype._jexception.ExceptionPyRaisable: java.lang.Exception: Class
de.l3s.boilerpipe.sax.HTMLHighlighter not found
什麼可能會導致這個問題,我該如何解決它?
你可以解析feed使用純Python [feedparser模塊](http://packages.python.org/feedparser/introduction.html) – jfs 2012-02-19 19:48:57
@JFSebastian謝謝。我實際上已經使用feedparser來實際獲取文章(以及它們的url)。 一旦我得到一篇文章,然後我想從其頁面中提取文章內容(不包括側邊欄,菜單和其他隨機文本)。 根據我的研究,鍋爐似乎是最好的方式。不幸的是,我遇到了上面提到的將它導入python的問題。 – user1106610 2012-02-19 19:58:27