2014-10-09 43 views
2

我想推理一堆意見。據我所知,nltk不能用與英語不同的語言來詞彙化。稍微研究一下,我發現pattern,它可以用幾種語言詞彙化詞彙。我怎樣才能模仿一些文字?如何用圖案來模擬西班牙語單詞?

這是我的測試集:

# -- coding: utf-8 -- 

from pattern.es import lemma #unresolved reference 

opinions = ["Este es un post de juguetes de aprendizaje \ 
automático. En realidad, contiene no mucho \ 
material interesante.", 
"Las bases de datos de imágenes proporcionan \ 
capacidades de almacenamiento.", 
"La mayoría de las bases de datos de imágenes \ 
imágenes seguras de forma permanente.", 
"Los datos de imagen de tienda bases de datos.", 
"Imagina almacenar bases de datos de bases de \ 
datos de imágenes. Almacenar datos. Bases de datos \ 
de imágenes de datos de la tienda."] 

print lemma(opiniones) 

輸出:

File "/Users/user/PycharmProjects/Pruebas/Lemmatizacion.py", line 18, in <module> 
    print lemma(opiniones) 
    File "/usr/local/lib/python2.7/site-packages/pattern/text/__init__.py", line 1591, in lemma 
    if verb.lower() in self._inverse: 
AttributeError: 'list' object has no attribute 'lower' 

我怎樣才能lemmatize opinions

回答

4

您可以使用模式的parsetree函數將lemmata參數設置爲True來模擬文本。

from pattern.es import parsetree 
parsetree("buena", lemmata=True) 
# Returns [Sentence('buena/JJ/B-ADJP/O/bueno')] 
+0

當我導入parsetree我有一個未解決的參考,我該如何解決這個問題? – 2014-10-13 15:48:12

+0

在這種情況下,您可能沒有正確安裝/配置模式庫。這個PyCharm錯誤是你所指的「未解決的引用」的類型嗎? http://stackoverflow.com/questions/21236824/unresolved-reference-issue-in-pycharm – 2014-10-14 08:07:36

+0

謝謝你nathan,我按照指示,我仍然有未解決的參考問題。我能做些什麼? – 2014-10-21 19:24:51