lemmatization

    8熱度

    2回答

    最近我接觸到NLP,並試圖使用NLTK和TextBlob來分析文本。我想開發一個應用程序來分析旅行者的評論,所以我必須管理很多用不同語言編寫的文本。我需要做兩個主要操作:POS標記和詞形化。我已經看到,在NLTK有一個可能性的選擇了句子切分正確的語言是這樣的: tokenizer = nltk.data.load('tokenizers/punkt/PY3/italian.pickle') 我

    2熱度

    1回答

    我正在使用Python3.5的nltk pos_tag函數和WordNetLemmatizer。我的目標是在我們的數據庫中拼合單詞以分類文本。我正在嘗試使用lemmatizer進行測試,並且在相同的記號上使用POS標記時遇到了奇怪的行爲。在下面的例子中,我有一個三個字符串的列表,當它們在POS標記器中運行時,其他每個元素都作爲名詞(NN)返回,其餘的作爲動詞(VBG)返回。 這會影響詞形。輸出看起

    0熱度

    1回答

    我試圖用stanford corenlp跟在this之後的問題。我的環境是: - 的Java 1.7 的Eclipse 3.4.0 StandfordCoreNLP版本3.4.1(downloaded from here)。 我的代碼片斷是: - //...........lemmatization starts........................ Properties p

    -2熱度

    1回答

    我有一個簡單的項目,需要實現這種事情。 Sports - > Sport Walking -> Walk and ideally also do things like: good -> better better -> good person -> people people -> person 有人可以指點我最光明的圖書館,可以實現這一目標嗎? (我知道有像Lucene,C

    0熱度

    1回答

    我是Solr中的新成員,我必須執行過濾器來將文本解讀爲索引文檔以及解析查詢。 我在將文本文本傳遞給標準標記器之前爲其創建了自定義標記器工廠。 在Solr分析部分中進行測試的工作相當不錯(在索引正常但在查詢時有時會分析文本兩次),但索引文檔時只分析第一個文檔並隨機分析查詢(它只分析第一個文檔,並分析另一個你必須等待一段時間)。這不是性能問題,因爲我嘗試修改文本而不是引文。 下面是代碼: packag

    -1熱度

    1回答

    當我將它放在由許多類組成的項目中時,我通過使用Netbeans 8.0(存在於下面的link)在java中的詞形代碼中有一個例外。例外是 Exception in thread "main" java.lang.NoSuchMethodError: edu.stanford.nlp.process.Morphology.lemma(Ljava/lang/String;Ljava/lang/Stri

    1熱度

    1回答

    我將引用特德數據集抄本。我注意到了一些奇怪的東西: 並非所有的單詞都被詞性化。說, selected -> select 這是正確的。 但是,involved !-> involve和horsing !-> horse除非我明確輸入'v'(動詞)屬性。 蟒終端,我得到正確的輸出,但不是在我的code: >>> from nltk.stem import WordNetLemmatizer >

    0熱度

    1回答

    我的英語分析小說提取它們相關的語言信息。爲此,我使用GATE並需要一個lemmatizer,所以我試圖使用RASP工具,並提供了以下示例管道之一: 1)RegEx語句分離器 2)RAPS2 Tokenizer 3)RASP2 POS標記器 4)RASP 2形態分析儀 5)RASP2解析器。 我使用Mac臺式機(OS X 10.9.4)和GATE的最新版本。當我在GATE的「處理資源」中加載RegE

    1熱度

    1回答

    我已經使用NLTK,並得到錯誤的結果是這樣的: >>> print lmtzr.lemmatize('coding', 'v') cod 我認爲答案是魚,而不是「代碼」。 有沒有辦法解決這個或其他python Lib可以做得更好的工作?解決這個問題

    -1熱度

    1回答

    如何執行阿拉伯文原文文字說明? 我對斯坦福nlp罐很熟悉。 (http://nlp.stanford.edu/projects/arabic.shtml) 但不幸的是,這並沒有提供適當的詞形。