我有一個人類標記語料庫,其中包含超過5000個主題索引的XML文檔。它們的大小從幾百千字節到幾百兆字節不等。對手稿短篇文章。它們都受到了像段落一樣深的索引。我很幸運能夠擁有這樣一個語料庫,並且我正在嘗試自學一些NLP概念。無可否認,我只是開始了。到目前爲止,只能閱讀免費提供的NLTK書籍streamhacker以及掠過jacobs(?)NLTK食譜。我喜歡嘗試一些想法。NLTK/NLP構建多對多/多標籤主題分類器
有人向我暗示,也許我可以採用二元法並使用樸素貝葉斯分類來標記新文檔。我覺得這是錯誤的方法。樸素貝葉斯精通於真/假關係,但要在我的分層標籤集上使用它,我需要爲每個標籤構建一個新的分類器。其中將近1000人。我有內存和處理器的能力來完成這樣的任務,但對結果持懷疑態度。不過,我會首先嚐試這種方法,以安撫某些人的請求。我應該在接下來的一兩天內完成這項工作,但我預測精度會很低。
所以我的問題有點開放。由於紀律性質和我的數據的一般不確定性,我們可能很難給出確切的答案。
什麼樣的分類器適合這項任務。我錯誤地認爲貝葉斯可以用於比真正/錯誤的手術更多的東西。
我應該追求什麼特徵提取來完成這樣的任務。我並不期待與bigrams。
每個文檔還包括一些引文中的信息,包括,作者/秒,m的作者性別,F,混合(米& f)和其他(官立研究所等人),文檔類型,發佈日期(目前爲第16分),人類分析員和其他一些常規元素。我還要感謝一些有用的描述性任務,以幫助更好地調查這些數據,以便更好地處理性別偏見,分析偏見等。但是,要意識到這有點超出了這個問題的範圍。
如果您的語料庫中的文檔之間的歸一化壓縮距離與標籤相關,將會很有趣。 –