opennlp

    3熱度

    1回答

    我想使用NLP工具從意大利文文本中提取名稱和數字。 不幸的是,The Standford NLP和Apache OpenNLP都不能爲意大利語提供模型。 我可以找到一個,或找到一個培訓數據? (至少15000個句子)

    0熱度

    1回答

    我正在研究一個計劃稍後集成Lucene的文本挖掘項目。我目前的實現使用openNLP來處理常見的NLP任務,如標記化,構建n-gram特性。我很想知道Lucene是否可以支持這些功能?與openNLP相比,Lucene是否可以實現大規模文檔集合的高效率?

    1熱度

    1回答

    在opennlp中,我正在訓練一個指定的實體模型。如果我使用命令行工具提供「.train」文件和火車,它的工作原理是完美的。但是,當我使用API​​並通過語句檢測器並將其標記並將其發送給名稱查找時,查找不會檢測到類型。 尋找這個問題,帶來了一個類似的問題,沒有太多的輸入或建議。所有的代碼和輸入都很好。過去幾天掙扎着。任何幫助,將不勝感激。 〜編輯,嘗試獲得點擊和一個可能的建議。 Thnx 謝謝。

    0熱度

    1回答

    我不熟悉Mac(我使用Windows和Linux Mint),但有一個包,我需要能夠告訴所有平臺上的人如何構建。此軟件包依賴於openNLP,並且由於encoding issues與MacOS X不通過install.packages("openNLP")進行安裝。 我有別人告訴我,你使用install.packages("openNLP", type="source")仍然可以安裝,但我得到以下

    -1熱度

    2回答

    我是ML新手。我有一個差異報告,註釋表明好的差異和糟糕的差異。示例 - 舊字符串新的字符串DIFF註解 ABC ABC良好 PQR XYZ壞 LMN WXY好 .... 鑑於這種訓練集,是否有可能使用分類器來預測未來差異報告的註釋,假定它們具有相似的內容。如果是這樣,哪個分類器最適合這項任務?

    4熱度

    2回答

    閱讀POS標籤模型我試圖做POS上一個普通的Java應用程序中使用openNLP POS Models標記。現在我想在Android平臺上實現它。我不確定Android的要求或限制是什麼,因爲我無法讀取模型(二進制文件)並正確執行POS標記。 我試圖讓從外部存儲.bin文件中,以及把它在外部庫,但它仍然無法正常工作。這是我的代碼: InputStream modelIn = null; POSM

    2熱度

    1回答

    我正在使用NLTK包中的基本標記器。我之前使用OpenNLP的標記系統。我正在切換,因爲NLTK有更多的預構建模塊,我可以稍後在我的項目中使用。但是我現在缺少的一件事是標記器給出的「置信度」值。 最初在OpenNLP的設置下,我得到了一個數字值(從0到1),告訴我這個標記器在其決策中有多信心(0完全沒有信心,1完全有信心)。我想知道是否有人在NLTK的標籤系統中知道任何可以類似工作的值。它不一定是

    4熱度

    2回答

    我需要在我的PHP代碼中使用基於的Java的OpenNLP庫。例如,我需要使用Sentence Detector組件(en-sent.bin)來分析我的PHP代碼中的文本變量。 在其documentation,該API可以從的Java代碼如下訪問: InputStream modelIn = new FileInputStream("en-sent.bin"); try { Sent

    2熱度

    1回答

    我想在OpenNLP中爲我的名稱實體識別功能進行培訓。 我寫了一段代碼,根據 http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind 我開始用一個簡單的例子試圖對「一把手」培訓,標誌着這樣一個培訓文件中的所有\ d +: In <START:number> 1941 <E

    1熱度

    1回答

    我使用.train文件設置了數據集,其非常大的文件爲100MB文件。我想執行NER來提取組織名稱。我使用OpenNLP進行了培訓。 示例代碼: TokenNameFinderModel model=NameFinderME.train("en","organization", sampleStream,Collections.<String, Object>emptyMap());