part-of-speech

    0熱度

    1回答

    我想知道是否有英文的開源概率深層解析器,它將輸入一系列令牌及其相應的語音部分(POS標籤)作爲輸入,並生成解析樹作爲結果。我知道的解析器只將標記序列作爲輸入,並將POS標記和解析樹作爲輸出生成。在我的情況下,我已經有一個特定的標記器和相應的(已被黑客攻擊的)帶有Penn標記集的POS標記器,並且只想根據這些標記和相應的標記生成分析樹。

    0熱度

    1回答

    我正在處理一個關鍵字提取任務,在其中我想提取短語而不是單詞。爲了將每個句子分成有意義的部分,我首先進行詞性標註,然後基於語言規則只提取名詞短語。每個名詞短語都是要提取的潛在關鍵字。然而,因爲我只需要爲每個給定文檔提取'k'個關鍵字,所以我需要一種很好的方法來對提取的名詞短語進行排名。一種簡單的方法是計算每個術語(在每個名詞短語中)的TDIDF得分,然後每個名詞短語的得分將是其組成術語「TDIDF得

    0熱度

    1回答

    我是新來的詞性(pos)taging,我正在對文本文檔做pos標記。我正在考慮爲此使用OpenNLP或StanfordNLP。對於StanfordNPP,我使用的是MaxentTagger,我使用english-left3words-distsim.tagger進行訓練。在OpenNLP中,我使用POSModel並使用en-pos-maxent.bin進行訓練。這兩個標記器(MaxentTagge

    1熱度

    1回答

    讓我們試用nltk軟件包中Python的標準詞類標註器。 import nltk # You might also need to run nltk.download('maxent_treebank_pos_tagger') # even after installing nltk string = 'Buddy Billy went to the moon and came Back

    0熱度

    2回答

    我有一個文本文檔,我想從中提取名詞短語。在第一步中,我提取句子,然後爲每個句子做詞性(pos)標記,然後使用pos做一個分塊。我使用StanfordNP來完成這些任務,這是提取句子的代碼。 Reader reader = new StringReader(text); DocumentPreprocessor dp = new DocumentPreprocessor(reader); 我認

    1熱度

    2回答

    我正在尋找工具來查找文檔語料庫中的部分語音模式。我正在使用斯坦福NLP工具來標記我的文檔。現在我想查詢這些標記的文檔並找到了一些具體的POS模式,例如 NP是JJ(例如:電影是好的) 或JJNP(例如:優質鵝肝醬) 有沒有一種工具可以以簡單高效的方式爲我做到這一點,還是我需要寫我自己的?考慮

    2熱度

    2回答

    我的問題與後綴處理詞性標記和解析的自然語言句子有關。具體來說,我正在編寫一個Lisp後處理器的組件,該處理器將輸入句子分析樹(例如,由Stanford Parser生成的一個)作爲輸入,從該分析樹中提取調用的短語結構規則以生成解析,然後生成一個規則和規則計數表。輸入和輸出的一個例子是如下: (1)句子: John said that he knows who Mary likes (2)分析器

    -1熱度

    1回答

    下面是一個示例文本輸出示例: 好/ NNP下午/ NNP Rajat/PERSON Raina/PERSON,/ O how/WRB是/ VBP你/ PRP今天/ NN?/ O

    0熱度

    2回答

    這個腳本沒有輸出沒有錯誤的compling在play.golang.org:http://play.golang.org/p/Hlr-IAc_1f 但是,當我在我的機器上運行,更長的時間比我預計情況終端沒有任何事情發生。 我想要構建的是PartOfSpeech標記。 我認爲最長的部分是將lexicon.txt加載到地圖中,然後將每個單詞與每個單詞相比較,以查看它是否已經在詞典中進行了標記。詞典只包

    1熱度

    1回答

    我正在使用Apache OpenNLP詞性標記器來對文本集合中的詞類進行識別。 我想評估它的性能,並且我想知道它可能已經被訓練了哪些數據? 英文版模型的名稱不會提示所用的培訓數據。 Apache OpenNLP文檔提到了一些可能可能用於培訓POS-Tagger的語料庫。 http://opennlp.apache.org/documentation/manual/opennlp.html#tool