2012-01-25 118 views
4

我在NLP一個新手,只是在做它的第一次。 我想解決一個問題。NLP文本標記

我的問題是我有一些文件,這些手動標記像 DOC1 - categoryA,類別b DOC2 - categoryA,categoryC doc3的 - categoryE,categoryF,categoryG 。 。 。 。 DOCN - categoryX

我這裏有一組固定的類別和任何文件可以有任意數量的與之相關的標籤。 我想使用這個輸入來訓練分類器,以便這個標記過程可以自動化。

感謝

+2

實際上你需要問我們一個問題,而不是簡單地表達解決一些問題的意圖。你嘗試了什麼?你面臨什麼問題?你想讓我們嘗試告訴你什麼? –

+0

基本的「一言一行」分析看起來就像是你的第一站。你有沒有嘗試過你的文件的樸素貝葉斯分類?但是,像dbacl這樣的許多標準工具更適合於多對一的分類問題。 – tripleee

回答

3

大多數分類工作在Bag of word model。有多種用例可以獲得預期的結果。

  1. 試試最普遍的多項天真基地緬不斷變化的不同輸入paramters和檢查結果。

  2. ML天真基地(http://scikit-learn.org/0.11/modules/naive_bayes.html)的嘗試變種

  3. 你可以考慮句子結構一起,檢查了一句分類。考慮到ngram概念,你可以嘗試2,3,4,5克模型,並檢查結果的變化。計數矢量化允許NGRAM,看看這個鏈接,例如 - http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

基於數據集的功能,而不是一個單一的分類器可以是最適合你的情況,你必須檢查出不同的使用情況下,最適合你。

大多數最初的做法是,你開始使用scikit學習簡單的分類。

  1. 把每個類別的訓練課,並與該班

  2. 對於任何輸入DOCX,分類與訓練模型訓練分類

  3. 您將獲得的概率結果爲每個類別現在
  4. 把一些threshold喜歡概率三大產生的最高類別之間的不同,如果匹配的門檻認爲這些類別的結果,對於輸入類。
0

它不清楚是什麼,你都試過,或者你使用什麼編程語言,但大多數都建議用文檔向量,文字包試試文本分類(只要有在文檔中的詞,可以是與分類幫助)

這裏有一些簡單的工具,可以幫助您開始

Weka http://www.cs.waikato.ac.nz/ml/weka/ (GUI & Java) 
NLTK http://www.nltk.org (Python) 
Mallet http://mallet.cs.umass.edu/ (command line & Java) 
NUML http://numl.net/ (C#) 
+0

要求澄清,添加評論(一旦你有聲望)。只是傾倒在一些鏈接不是很有幫助。首先,OP可以使用他們選擇的搜索引擎。其次,鏈接可能過時,使你的回答毫無意義。 – Robert