opennlp

    1熱度

    1回答

    所有的詞性(POS)標記都以簡碼(NNS,VBZ等)的形式給出標籤。 此/ DT頁/ NN是/約/ IN的/ DT布瑞爾-標註器/ NNP 如同上面的例子是從online POS Taggers之一VBZ。 我在哪裏可以找到每個簡碼的含義?

    7熱度

    2回答

    我想使用OpenNLP做「coreference resolution」。來自Apache的文檔(Coreference Resolution)不包括如何執行「共同決議」。有沒有人有任何文檔/教程如何做到這一點?

    1熱度

    1回答

    我使用轉換爲純文本格式的html文檔爲TokenNameFinder創建了一套訓練集,但我的精度很低,我想使用HTML標記作爲訓練的一部分。就像粗體字,以及不同邊距大小的句子。 OpenNLP會接受並使用這些標籤來創建規則嗎? 有沒有另一種方法來利用這些標籤來提高精度?

    0熱度

    1回答

    我實現textrank Java編寫,但它似乎相當緩慢。有誰知道它的預期表現? 如果它不預期爲慢,可以任意被下述問題: 1)它似乎並不像有創建一個邊緣,並在添加權重給它的方式JGraphT時間相同,所以我計算重量,如果它> 0,我添加一個邊緣。稍後我將重新計算重量,以便在邊緣循環時添加它們。這是一個可怕的想法? 2)我使用JGraphT。這是一個緩慢的圖書館? 3)什麼我可以做,使之更快?

    0熱度

    1回答

    我目前正在通過opennlp源代碼來試圖找到/理解它們用於分塊的語法。這不是最簡單的任務之一。我開始瀏覽chunkermodel和相關的課程,但沒有得到太多...... 有沒有人曾經搜過這個?如果有的話,任何建議或想法將使我走上正軌?

    13熱度

    3回答

    我有一段文字,我想從中提取名詞短語。我可以很容易地獲得我所擁有的文本的類型化解析器,但是想知道如何在文本中提取名詞短語?

    1熱度

    1回答

    我正在爲我的一個項目嘗試apache打開NLP,我的要求是從電子郵件內容中檢測名詞並檢查我們的客戶數據庫(此數據庫由個人名稱,組織名稱等組成和我的搜索引擎是Solr基地)。 對於普通英語名詞,默認訓練模型可以正常工作(對於大多數情況),但 其中一個棘手的要求是,我們的企業組織有縮寫,如OK,LET等,因此在少數情況下我需要考慮OK,LET等作爲名詞。 舉個例子 1)「發送一些項目讓,請期待延誤付款

    3熱度

    3回答

    我知道這個問題更多的是語法問題,但是如果您有一組Penn Treebank標記,如何確定句子的「主題」: [WP][VBZ][DT][NN] 是否有任何Java庫可以接受這種令牌並確定哪一個是主題?或者哪些?

    5熱度

    2回答

    現在,這是一個棘手的問題,我無法找出一個好的解決方案。假設我們在Java中有一個String: - 「他今天吃了3個蘋果。」現在,數字3可以使用isNumeric函數或使用正則表達式在Java中輕鬆識別。但是如果我有這樣一個字符串呢?「他今天吃了三個蘋果。」?我怎樣才能確定三個實際上是一個數字?我使用了OpenNlp並使用了它的POS tagger,但是它花費的時間太多了!任何人都可以提出更好的解

    1熱度

    1回答

    我使用OpenNLP模型進行名稱實體識別。 我傳遞的句子,在我需要確定的話。 打開NLP需要一個String []變量,因此我將我的String分隔成由空格分隔的單詞。 我面臨認識日期的問題。例如,如果字符串包含2012年1月7日的日期,並且我將字符串拆分爲單詞,則「7」,「Jan」和「2012」將分隔爲3個不同的單詞。儘管它們被認爲是日期,但是3種不同的標記對於我進一步處理沒有意義。 我怎麼可能