named-entity-recognition

    35熱度

    3回答

    我試圖從我的文本中使用NLTK提取命名實體。我發現NLTK NER對我的目的不太準確,我想添加一些我自己的標籤。我一直在試圖找到一種方法來訓練我自己的NER,但我似乎無法找到合適的資源。 我有一個關於NLTK- 我可以用我自己的數據來訓練命名實體識別在NLTK幾個問題嗎? 如果我可以使用我自己的數據進行訓練,那麼named_entity.py是要修改的文件嗎? 輸入文件格式是否必須在IOB中,例如

    3熱度

    2回答

    我想識別特定字段中的命名實體(例如棒球)。我知道有像斯坦福,LingPipe,AlchemyAPI這樣的工具,我已經做了一些測試。但是我想讓他們成爲領域特定的,正如我前面提到的那樣。這怎麼可能?

    5熱度

    1回答

    對於現有的文本分類(監督)技術,爲什麼我們不把文本中的命名實體(NE)作爲培訓和測試中的一項功能?你認爲我們可以通過使用NE來提高精度嗎?

    2熱度

    1回答

    有人知道是否有任何語言獨立的命名實體識別庫? 謝謝

    1熱度

    1回答

    我使用轉換爲純文本格式的html文檔爲TokenNameFinder創建了一套訓練集,但我的精度很低,我想使用HTML標記作爲訓練的一部分。就像粗體字,以及不同邊距大小的句子。 OpenNLP會接受並使用這些標籤來創建規則嗎? 有沒有另一種方法來利用這些標籤來提高精度?

    4熱度

    2回答

    我可以用下面的代碼得到一個用命名實體註釋的字符串。 String NEString = classifier.classifyWithInlineXML(fileContents) 我不知道是否有打電話讓我能得到獨立的實體(個人,組織,LOCATIOIN)列表文件中的任何方法,這樣我就不必解析檢索到的字符串上面的方法來獲取實體列表?

    4熱度

    1回答

    我正在嘗試使用NLTK命名實體標記來標識各種命名實體。在這本書中自然語言處理與Python他們提供常用的命名entitities列表(表7.4,如果有人好奇),其中包括:DATE月,2008-06-29和TIME兩點五A M,下午1:30所以我得到了這個可以用NLTK的命名實體標記器完成的印象。 然而,當我運行惡搞,它似乎並沒有回暖的日期或時間可言,因爲它的人或組織。 NLTK命名的實體標記器是否

    5熱度

    1回答

    我正在開發醫學文本的半自動註釋工具,我完全失去了找到註釋的RDF三元組。 我目前正在嘗試使用基於NLP的方法。我已經看過斯坦福NER和OpenNLP,他們都沒有提取疾病名稱的模型。 我的問題是: *如何創建一個新的NER模型來提取疾病名稱?我可以從OpenNLP或斯坦福NER獲得任何幫助嗎? *除了NLP之外,還有其他一種方法能夠從文本中提取RDF三元組嗎? 任何幫助,將不勝感激!謝謝。

    0熱度

    4回答

    我有一個大文本,我想分析這個文本並識別(例如,本文中存在的維基百科條目)。 我想用正則表達式,類似的: pattern='New York|Barak Obama|Russian Federation|Olympic Games' re.findall(pattern,text) ...等,但這將是數以百萬計的字符長,重不接受...... 的我想過的其他方式是標記我的文本和搜索每個令牌的維基

    5熱度

    3回答

    自從過去1年以來,我一直在進行文檔級情緒分析。 文檔級情感分析提供了完整文檔的感悟。例如 - 文本「諾基亞是好的,但沃達豐吸取大時間」將有一個負面的相關性,因爲它是不可知論的實體諾基亞和沃達豐。 如何才能獲得實體級的情緒,如諾基亞的積極因素,但沃達豐的消極因素?有沒有研究論文提供解決這些問題的方法?