使用NLTK的塊/文本解析

我想解析一些文本和圖，就像你會一句話。我是NLTK的新手，並試圖在NLTK中找到一些能夠幫助我完成這一任務的東西。到目前爲止，我已經看到nltk.ne_chunk和nltk.pos_tag。我發現他們不是很有幫助，我無法找到任何好的在線文檔。使用NLTK的塊/文本解析

我也嘗試過使用LancasterStemmer，但我不完全理解它的作用，應該如何使用或者爲什麼它應該存在。

有人能幫我解決這個問題嗎？沒有任何指導性的燈光，我真的感到茫然，而且很沮喪。

在此先感謝

來源

2009-11-08 inspectorG4dget

你究竟想完成什麼？你是否真的需要語義分析，或者簡單的詞法分析？你試圖製作的digram是什麼？ – 2009-11-08 05:58:31

最終，我希望能夠創建一個代表文本中數據的「樹」。一旦我完成了這個工作，那麼我可以對另一段文本做相同的處理（就同一主題 - 說一個演講），然後比較兩者是相似/不同的，並納入差異。這可以最終產生一個「樹」，該樹具有最精確的演講代表 – inspectorG4dget 2009-11-08 18:57:33

你所描述實際上是一個很艱難的任務，因爲在最後，你的程序是成功還是失敗完全是一個主觀的措施。在這種情況下，通常意味着構建一個解決問題的計劃是困難的。在大學裏，有些人爲了解決這些問題而得到報酬。

如果你想刺激它，我會建議嘗試使用某種自動詞法分析工具，而不是嘗試手動解析和註釋，然後利用你的分析樹。通常，分析樹代表句法分析，即句子的結構。另一方面，你關心的是語義分析，也就是說它的含義 - 或者至少兩個句子是相似還是不同（實際上它比某種方式更容易一些）。

您可以查看一些現成的自動彙總工具。這些嘗試通過對一段文本的重要性來判斷句子，並篩選出不如指定閾值重要的句子。這並不是說這對你有很大的幫助，因爲你仍然有需要合併摘要的問題。

來源

2009-11-09 01:32:56 nedned

謝謝。現在，我試圖獲取句子的句法結構，以便稍後可以進行語義分析。請告訴我，如果我走錯了方向，因爲我仍然是一名學生，並不是專家，並且會很感激這樣的反饋。無論哪種情況，你會推薦任何特定的nltk工具/模塊來幫助解決這個問題嗎？ – inspectorG4dget 2009-11-09 02:01:19

如果我要完成這項任務，我不確定是否會麻煩解析。我認爲你最好使用統計方法，通常使用一袋文字方法（或類似方法）。這就是它的意思，只是把每個句子當成一堆文字，而不是擔心文字的位置。一些可能幫助你的技術是基於聚類的方法，可能還有TF-IDF。也許閱讀這些內容，看看你是否認爲他們可以幫助你。 NLTK有這兩個模塊。 – nedned 2009-11-09 02:54:35

謝謝你謙虛的咖啡。是否有可能，你可以指向我的任何特定的nltk模塊？也許你用過並認爲可能適合我的問題？ – inspectorG4dget 2009-11-16 00:11:39

使用NLTK的塊/文本解析

回答

相關問題