我正在尋找我正在實施的兩個功能的新想法。 1)文字分割特徵:搭配 Ex:
User Query: Resolved Query:
----------- ---------------
It has lotsofwordstogether It has lots of words together
I am using
我有一個包含70,429個文件(296.5 mb)的語料庫。我試圖通過使用整個語料庫來找到雙格。我寫了下面的代碼; allFiles = ""
for dirName in os.listdir(rootDirectory):
for subDir in os.listdir(dirName):
for fileN in os.listdir(subDir):
我有一個語料庫,我有一個詞。對於語料庫中每個單詞的出現,我想得到一個包含前面的k個單詞和單詞後面的k個單詞的列表。我正在做這個算法確定(見下文),但我想知道NLTK是否提供了一些功能來滿足我錯過的需求? def sized_context(word_index, window_radius, corpus):
""" Returns a list containing the windo
我看到多個問題和答案,說NLTK搭配不能超越雙克和三克。 例如,這一個 - How to get n-gram collocations and association in python nltk? 我看到有一個叫 nltk.QuadgramCollocationFinder東西 類似 nltk.BigramCollocationFinder和nltk.TrigramCollocationFin