1
我對NLTK非常陌生,正在嘗試做某些事情。在NLTK中查找兩個文本語料庫之間的常見詞
在兩個文本主體之間找到常用詞的最佳方式是什麼?基本上,我有一個長文本文件說text1,另一個說text2。我想找到使用NLTK出現在這兩個文件中的常見詞彙。
有沒有直接的方法來做到這一點?最好的方法是什麼?
謝謝!
我對NLTK非常陌生,正在嘗試做某些事情。在NLTK中查找兩個文本語料庫之間的常見詞
在兩個文本主體之間找到常用詞的最佳方式是什麼?基本上,我有一個長文本文件說text1,另一個說text2。我想找到使用NLTK出現在這兩個文件中的常見詞彙。
有沒有直接的方法來做到這一點?最好的方法是什麼?
謝謝!
在我看來,除非你需要做一些特別的東西與問候語言處理,你不需要NLTK:
words1 = "This is a simple test of set intersection".lower().split()
words2 = "Intersection of sets is easy using Python".lower().split()
intersection = set(words1) & set(words2)
>>> set(['of', 'is', 'intersection'])
太好了。我也是python的新手。這有幫助。感謝西蒙! – Apoorva 2013-05-05 08:31:40
通常,語料庫是指文本的集合。你正在處理兩個文本,而不是兩個集合。 – Spaceghost 2013-05-03 16:17:02
噢,好的。謝謝! – Apoorva 2013-05-05 08:32:12