2013-05-03 31 views
1

我對NLTK非常陌生,正在嘗試做某些事情。在NLTK中查找兩個文本語料庫之間的常見詞

在兩個文本主體之間找到常用詞的最佳方式是什麼?基本上,我有一個長文本文件說text1,另一個說text2。我想找到使用NLTK出現在這兩個文件中的常見詞彙。

有沒有直接的方法來做到這一點?最好的方法是什麼?

謝謝!

+0

通常,語料庫是指文本的集合。你正在處理兩個文本,而不是兩個集合。 – Spaceghost 2013-05-03 16:17:02

+0

噢,好的。謝謝! – Apoorva 2013-05-05 08:32:12

回答

0

在我看來,除非你需要做一些特別的東西與問候語言處理,你不需要NLTK:

words1 = "This is a simple test of set intersection".lower().split() 
words2 = "Intersection of sets is easy using Python".lower().split() 

intersection = set(words1) & set(words2) 

>>> set(['of', 'is', 'intersection']) 
+1

太好了。我也是python的新手。這有幫助。感謝西蒙! – Apoorva 2013-05-05 08:31:40

相關問題