opennlp

1熱度

1回答

我在哪裏可以找到POS標籤使用的短代碼的擴展？

所有的詞性（POS）標記都以簡碼（NNS，VBZ等）的形式給出標籤。此/ DT頁/ NN是/約/ IN的/ DT布瑞爾-標註器/ NNP 如同上面的例子是從online POS Taggers之一VBZ。我在哪裏可以找到每個簡碼的含義？

7熱度

2回答

使用OpenNLP的Coreference分辨率

我想使用OpenNLP做「coreference resolution」。來自Apache的文檔（Coreference Resolution）不包括如何執行「共同決議」。有沒有人有任何文檔/教程如何做到這一點？

1熱度

1回答

OpenNLP可以使用HTML標籤作爲培訓的一部分嗎？

我使用轉換爲純文本格式的html文檔爲TokenNameFinder創建了一套訓練集，但我的精度很低，我想使用HTML標記作爲訓練的一部分。就像粗體字，以及不同邊距大小的句子。 OpenNLP會接受並使用這些標籤來創建規則嗎？有沒有另一種方法來利用這些標籤來提高精度？

0熱度

1回答

TextRank運行時間

我實現textrank Java編寫，但它似乎相當緩慢。有誰知道它的預期表現？如果它不預期爲慢，可以任意被下述問題： 1）它似乎並不像有創建一個邊緣，並在添加權重給它的方式JGraphT時間相同，所以我計算重量，如果它> 0，我添加一個邊緣。稍後我將重新計算重量，以便在邊緣循環時添加它們。這是一個可怕的想法？ 2）我使用JGraphT。這是一個緩慢的圖書館？ 3）什麼我可以做，使之更快？

0熱度

1回答

OpenNLP提取語法

我目前正在通過opennlp源代碼來試圖找到/理解它們用於分塊的語法。這不是最簡單的任務之一。我開始瀏覽chunkermodel和相關的課程，但沒有得到太多...... 有沒有人曾經搜過這個？如果有的話，任何建議或想法將使我走上正軌？

13熱度

3回答

使用斯坦福類型解析器從文本文件中提取名詞短語

我有一段文字，我想從中提取名詞短語。我可以很容易地獲得我所擁有的文本的類型化解析器，但是想知道如何在文本中提取名詞短語？

1熱度

1回答

apache openNLP chuker/POS名詞檢測

我正在爲我的一個項目嘗試apache打開NLP，我的要求是從電子郵件內容中檢測名詞並檢查我們的客戶數據庫（此數據庫由個人名稱，組織名稱等組成和我的搜索引擎是Solr基地）。對於普通英語名詞，默認訓練模型可以正常工作（對於大多數情況），但其中一個棘手的要求是，我們的企業組織有縮寫，如OK，LET等，因此在少數情況下我需要考慮OK，LET等作爲名詞。舉個例子 1）「發送一些項目讓，請期待延誤付款

3熱度

3回答

從詞性標記數組中找到一個「主語」

我知道這個問題更多的是語法問題，但是如果您有一組Penn Treebank標記，如何確定句子的「主題」： [WP][VBZ][DT][NN] 是否有任何Java庫可以接受這種令牌並確定哪一個是主題？或者哪些？

5熱度

2回答

Java中的文本處理

現在，這是一個棘手的問題，我無法找出一個好的解決方案。假設我們在Java中有一個String： - 「他今天吃了3個蘋果。」現在，數字3可以使用isNumeric函數或使用正則表達式在Java中輕鬆識別。但是如果我有這樣一個字符串呢？「他今天吃了三個蘋果。」？我怎樣才能確定三個實際上是一個數字？我使用了OpenNlp並使用了它的POS tagger，但是它花費的時間太多了！任何人都可以提出更好的解

1熱度

1回答

OpenNLP名稱實體識別模型的時間和日期

我使用OpenNLP模型進行名稱實體識別。我傳遞的句子，在我需要確定的話。打開NLP需要一個String []變量，因此我將我的String分隔成由空格分隔的單詞。我面臨認識日期的問題。例如，如果字符串包含2012年1月7日的日期，並且我將字符串拆分爲單詞，則「7」，「Jan」和「2012」將分隔爲3個不同的單詞。儘管它們被認爲是日期，但是3種不同的標記對於我進一步處理沒有意義。我怎麼可能