pos-tagging

1熱度

1回答

重寫：我有一個計算機科學相關文檔的語料庫。我想提取特定於域的關鍵字。例如JAVA，C＃，HTML，OOP，UML，Unity等。我一直在尋找類似牛津詞典的來源來計算，但是他們的API尚未運行。我也嘗試過使用Webopedia進行計算機科學術語的研究，但這並不是包含性和更新性的（例如，它不包括我的文檔中的某些單詞，例如F＃），或者維基百科的所有術語都未列在一起。是否有更具包容性的來源或合適的方法來

1熱度

3回答

添加POS標記爲屬性的XML元素

我想部分的詞性一個惡搞的輸出與POS標籤的屬性值對現有的字元素添加到現有的XML文件： house/N + <w>house</w> --> <w pos="N">house</w> 我想我可以的話給唯一的ID，匹配，然後在POS標籤添加到現有的XML文件，所以我設計在Python以下功能： import xml.etree.ElementTree as ET def add_postag

0熱度

1回答

我應該使用POS標記刪除停用詞嗎？

我是新來的這個NLP的東西，但所有的POS標籤和句子塊我看到的例子似乎並沒有刪除停止詞。所以如果我正在做POS標籤，我有問題，Chunking是否消除了刪除停用詞（和詞幹）的需要？

-4熱度

2回答

用於POS標記的NLP庫

我正在尋找一個信譽良好的Java，開源（最好）庫/包，它將文本作爲輸入並識別並標記其中的詞性。組件，如： Verbs + Tense + Passive/Active {Simple Present, Past Progressive, Past Passive, Present Perfect ... } Prepositions of movement {from, to...} Pre

1熱度

1回答

檢測第一/第二/第三人稱代詞

我正在尋找一種方法來檢測人稱代詞是第一人稱（I），第二人稱（您）還是第三人稱（他們）。代碼正在查看是否有人在談論自己，但也有其他一些應用程序。一個python庫會很棒，但不是必需的。 nltk.pos_tag會告訴我什麼是人稱代詞，但我似乎無法獲得更多的信息。是否有這樣的事情存在？

1熱度

1回答

是否可以使用Office SpellCheck API進行POS標記？

我是這個領域的新手，不知道NLP和POS標記是否可以在Office SpellCheck API中找到。由於Office SpellCheck是某種語言處理，有沒有可能將其用作POS標記器。

1熱度

2回答

從梗字獲得最接近的名詞

短版：如果我有一朵朵字： Say 'comput' for 'computing', or 'sugari' for 'sugary' 有沒有一種方法來構建它最接近的名詞形式？ That is 'computer', or 'sugar' respectively 加長版：我使用Python和NLTK，共發現上一堆話執行一些語義相似的任務。我注意到大多數sem-sim分數只適用於名詞，而形容

1熱度

1回答

在eclipse中重新訓練stanford nlp pos tagger

我對nlp相當陌生，我試圖弄清pos標籤。我目前正試圖走出斯坦福NLP POS惡搞，網址：http://nlp.stanford.edu/software/tagger.shtml 從上面的鏈接，有這樣一句話：打標籤可以在任何語言來重新培訓，給POS標註培訓該語言的文本。但是，我無法讓它工作。我現在所能做的就是給它一個文本文件來標記。例如， String test = "this is a

4熱度

1回答

Penn Treebank POS標記集爲什麼要爲單詞「to」分開標記？

Penn Treebank tagset對於單詞「to」具有單獨的標記TO，而不管它是否用於介詞意義（如I went to school）或不定式意義（如I want to eat）。從NLP的整體角度來看，這有什麼用途？只是將無限期標記爲'分開'具有直觀意義，但我沒有看到將不定式和介詞組合在單個標籤中的邏輯。謝謝，並道歉，如果這不符合堆棧溢出指導方針。

0熱度

2回答

如何正確設置NLTK中的Hunpos tagger用於英文POS標記？

我試圖使用Hunpos tagger用於NLTK的POS標記而不是傳統的pos_tag()，但我在加載二進制文件english.model或en_wsj.model時遇到了一些問題。事實上，我在Linux Mint的，我把它們放在/usr/local/bin，在HUNPOS環境變量設置爲這條道路，甚至試圖以這個路徑傳遞到__init__nltk/tag/hunpos.py的文件中使用的參數pat