2009-11-08 22 views
0

我想解析一些文本和圖,就像你會一句話。我是NLTK的新手,並試圖在NLTK中找到一些能夠幫助我完成這一任務的東西。到目前爲止,我已經看到nltk.ne_chunknltk.pos_tag。我發現他們不是很有幫助,我無法找到任何好的在線文檔。使用NLTK的塊/文本解析

我也嘗試過使用LancasterStemmer,但我不完全理解它的作用,應該如何使用或者爲什麼它應該存在。

有人能幫我解決這個問題嗎?沒有任何指導性的燈光,我真的感到茫然,而且很沮喪。

在此先感謝

+0

你究竟想完成什麼?你是否真的需要語義分析,或者簡單的詞法分析?你試圖製作的digram是什麼? – 2009-11-08 05:58:31

+0

最終,我希望能夠創建一個代表文本中數據的「樹」。一旦我完成了這個工作,那麼我可以對另一段文本做相同的處理(就同一主題 - 說一個演講),然後比較兩者是相似/不同的,並納入差異。這可以最終產生一個「樹」,該樹具有最精確的演講代表 – inspectorG4dget 2009-11-08 18:57:33

回答

1

你所描述實際上是一個很艱難的任務,因爲在最後,你的程序是成功還是失敗完全是一個主觀的措施。在這種情況下,通常意味着構建一個解決問題的計劃是困難的。在大學裏,有些人爲了解決這些問題而得到報酬。

如果你想刺激它,我會建議嘗試使用某種自動詞法分析工具,而不是嘗試手動解析和註釋,然後利用你的分析樹。通常,分析樹代表句法分析,即句子的結構。另一方面,你關心的是語義分析,也就是說它的含義 - 或者至少兩個句子是相似還是不同(實際上它比某種方式更容易一些)。

您可以查看一些現成的自動彙總工具。這些嘗試通過對一段文本的重要性來判斷句子,並篩選出不如指定閾值重要的句子。這並不是說這對你有很大的幫助,因爲你仍然有需要合併摘要的問題。

+0

謝謝。現在,我試圖獲取句子的句法結構,以便稍後可以進行語義分析。請告訴我,如果我走錯了方向,因爲我仍然是一名學生,並不是專家,並且會很感激這樣的反饋。 無論哪種情況,你會推薦任何特定的nltk工具/模塊來幫助解決這個問題嗎? – inspectorG4dget 2009-11-09 02:01:19

+0

如果我要完成這項任務,我不確定是否會麻煩解析。我認爲你最好使用統計方法,通常使用一袋文字方法(或類似方法)。這就是它的意思,只是把每個句子當成一堆文字,而不是擔心文字的位置。一些可能幫助你的技術是基於聚類的方法,可能還有TF-IDF。也許閱讀這些內容,看看你是否認爲他們可以幫助你。 NLTK有這兩個模塊。 – nedned 2009-11-09 02:54:35

+0

謝謝你謙虛的咖啡。是否有可能,你可以指向我的任何特定的nltk模塊?也許你用過並認爲可能適合我的問題? – inspectorG4dget 2009-11-16 00:11:39