在NLTK中查找兩個文本語料庫之間的常見詞

我對NLTK非常陌生，正在嘗試做某些事情。在NLTK中查找兩個文本語料庫之間的常見詞

在兩個文本主體之間找到常用詞的最佳方式是什麼？基本上，我有一個長文本文件說text1，另一個說text2。我想找到使用NLTK出現在這兩個文件中的常見詞彙。

有沒有直接的方法來做到這一點？最好的方法是什麼？

謝謝！

來源

2013-05-03 Apoorva

通常，語料庫是指文本的集合。你正在處理兩個文本，而不是兩個集合。 – Spaceghost 2013-05-03 16:17:02

噢，好的。謝謝！ – Apoorva 2013-05-05 08:32:12

在我看來，除非你需要做一些特別的東西與問候語言處理，你不需要NLTK：

words1 = "This is a simple test of set intersection".lower().split() 
words2 = "Intersection of sets is easy using Python".lower().split() 

intersection = set(words1) & set(words2) 

>>> set(['of', 'is', 'intersection'])

來源

2013-05-03 05:19:03

太好了。我也是python的新手。這有幫助。感謝西蒙！ – Apoorva 2013-05-05 08:31:40

在NLTK中查找兩個文本語料庫之間的常見詞

回答

相關問題