2011-10-12 97 views
8

我有一個人類標記語料庫,其中包含超過5000個主題索引的XML文檔。它們的大小從幾百千字節到幾百兆字節不等。對手稿短篇文章。它們都受到了像段落一樣深的索引。我很幸運能夠擁有這樣一個語料庫,並且我正在嘗試自學一些NLP概念。無可否認,我只是開始了。到目前爲止,只能閱讀免費提供的NLTK書籍streamhacker以及掠過jacobs(?)NLTK食譜。我喜歡嘗試一些想法。NLTK/NLP構建多對多/多標籤主題分類器

有人向我暗示,也許我可以採用二元法並使用樸素貝葉斯分類來標記新文檔。我覺得這是錯誤的方法。樸素貝葉斯精通於真/假關係,但要在我的分層標籤集上使用它,我需要爲每個標籤構建一個新的分類器。其中將近1000人。我有內存和處理器的能力來完成這樣的任務,但對結果持懷疑態度。不過,我會首先嚐試這種方法,以安撫某些人的請求。我應該在接下來的一兩天內完成這項工作,但我預測精度會很低。

所以我的問題有點開放。由於紀律性質和我的數據的一般不確定性,我們可能很難給出確切的答案。

  1. 什麼樣的分類器適合這項任務。我錯誤地認爲貝葉斯可以用於比真正/錯誤的手術更多的東西。

  2. 我應該追求什麼特徵提取來完成這樣的任務。我並不期待與bigrams。

每個文檔還包括一些引文中的信息,包括,作者/秒,m的作者性別,F,混合(米& f)和其他(官立研究所等人),文檔類型,發佈日期(目前爲第16分),人類分析員和其他一些常規元素。我還要感謝一些有用的描述性任務,以幫助更好地調查這些數據,以便更好地處理性別偏見,分析偏見等。但是,要意識到這有點超出了這個問題的範圍。

+2

如果您的語料庫中的文檔之間的歸一化壓縮距離與標籤相關,將會很有趣。 –

回答

10

什麼樣的分類器適合這項任務。我錯誤地認爲貝葉斯可以用於比真正/錯誤的手術更多的東西。

您可以通過building a separate binary classifier for each class輕鬆構建一個多標籤分類器,它可以區分該類和其他所有類。相應分類器產生正值的類是組合分類器的輸出。你可以使用NaïveBayes來處理這個或其他任何算法。 (你也可以做手腳與NB的概率輸出和閾值,但NB的概率估計是出了名的壞,只是它其中的排名是什麼使得它的價值。)

我應該追求什麼特徵提取這樣的任務

對於文本分類,已知tf-idf向量可以正常工作,但是您尚未指定確切的任務是什麼。文檔上的任何元數據都可能工作;嘗試做一些簡單的統計分析。如果某些類中的數據的任何特徵比其他類中的特徵更頻繁,那麼它可能是一個有用的特徵。

+0

所以,我沒有直接的任務。把我的腳放在水裏。我想要做的是利用我的人工標記語料庫來查看是否可以在段落級別自動化分層本體的標記。 – matchew

+0

@matchew:然後使用任何看起來相關的功能,嘗試多個設置並評估它們。沒有看到數據,沒有什麼是相關的。 –

+0

感謝您的幫助。非常感謝。我理解問題的複雜性,但也許我應該擴大範圍。可能會追求什麼類型的特徵提取。我喜歡tf-idf比雙克更好。但是其他什麼常常被認爲是有用的。我明白沒有正確的答案。 P.S.我將會把這個問題擱置幾天,希望能夠鼓勵對我的問題進行更多的討論。 – matchew

0

我知道你有兩個任務要解決。第一個是你想標記一個基於其主題的文章(?),因此文章可以分爲多個類別/類別,因此您有多標籤分類問題。有幾種算法提出用於解決多標籤分類問題 - 請檢查文獻。當我處理類似問題時,我發現本文相當有幫助:http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.104.9401

第二個問題要解決的是用作者,性別,文檔類型標記論文。這是一個多類問題 - 每個類都有兩個以上的潛在值,但所有文檔都有這些類的一些值。

我認爲作爲第一步,理解多類和多標籤分類之間的差異非常重要。