2012-06-16 40 views
2

我試圖閱讀關於NLP的一般信息,以及特定的nltk以便與python一起使用。我不確定是否存在尋找什麼,或者我是否需要開發它。使用python以編程方式猜測段落的標籤

我有一個程序從不同的文件中收集文本,文本是非常隨機的,談論不同的事情。每個文件包含一個段落或3個最大值,我的程序將打開這些文件並將它們存儲到一個表格中。

我的問題是,我可以猜測段落是關於什麼標籤?如果有人知道現有的技術或方法,我會非常感激。

感謝,

+1

由於標籤往往是名詞,如果您可以找到段落中的所有名詞並對它們進行計數,那可能是一個天真的解決方案。問題在於,如果這兩段關於獅子和老虎,你可能會想要一個'貓'的標籤。如果這就是你要找的東西,那麼你需要使用關聯字典並進行交叉檢查。 –

回答

1

您的任務被稱爲「文檔分類」,並且nltk book有一整章。我會以此開始。

這一切都取決於您的標籤分配標籤。您是否有興趣將您的文檔與預先存在的一組標籤進行匹配,或者可能在主題提取中選擇(選擇文本中N個最重要的詞或短語)?

0

你應該訓練分類,最簡單的一個發展(你並不真的需要把它發展NLTK提供了一個)是幼稚baesian。問題是,你需要手動分類觀察的語料庫,然後讓程序猜測哪個標籤最適合給定的段落(不用說,訓練語料庫越大,分類器越精確,恕我直言,你可以達到正確性的80-85%)。看看docs

相關問題