collocation

0熱度

2回答

所以我真的很新，在這裏點燃apache。我想要做的是加載具有類似屬性的數據，而不是將其加載到隨機實例中。例如，假設，這種形式的一些數據： ROLL_NO 34569 12349 34439 45329 32359 43549 53259 34229 如u可以看到，上述數據是所有與結束9.說我有兩個點燃實例A和B當前正在運行。有沒有什麼辦法可以將這些以9結尾的數據加載到實例A或

0熱度

2回答

分割和搭配

我正在尋找我正在實施的兩個功能的新想法。 1）文字分割特徵：搭配 Ex: User Query: Resolved Query: ----------- --------------- It has lotsofwordstogether It has lots of words together I am using

0熱度

1回答

從NLTK Collocations中找到Trigrams時獲取無法識別的單詞

我正在使用NLTK Collocations查找三字母單詞，'training_set'是一個包含多行文本的字符串。 finder = TrigramCollocationFinder.from_words(str(training_set)) print finder.nbest(trigram_measures.pmi, 5) 但我得到的輸出作爲 [('\xe5', '\x8d', '\

0熱度

2回答

在python中有很多txt文件的雙元克

我有一個包含70,429個文件（296.5 mb）的語料庫。我試圖通過使用整個語料庫來找到雙格。我寫了下面的代碼; allFiles = "" for dirName in os.listdir(rootDirectory): for subDir in os.listdir(dirName): for fileN in os.listdir(subDir):

3熱度

2回答

NLTK：查找大小爲2k的上下文

我有一個語料庫，我有一個詞。對於語料庫中每個單詞的出現，我想得到一個包含前面的k個單詞和單詞後面的k個單詞的列表。我正在做這個算法確定（見下文），但我想知道NLTK是否提供了一些功能來滿足我錯過的需求？ def sized_context(word_index, window_radius, corpus): """ Returns a list containing the windo

3熱度

1回答

nltk quadgram搭配發現者

我看到多個問題和答案，說NLTK搭配不能超越雙克和三克。例如，這一個 - How to get n-gram collocations and association in python nltk? 我看到有一個叫 nltk.QuadgramCollocationFinder東西類似 nltk.BigramCollocationFinder和nltk.TrigramCollocationFin

1熱度

1回答

如何統計兩個詞在R中靠近的文檔？

我想對兩個字符串出現在設定距離內的文檔進行計數，在彼此的10個字內。我們說'德國*'和'戰爭'。我不想統計它們總共出現的次數，但只計算出現集合的文檔數量（如果出現一次，則將其計爲一次）。我知道如何計算包含單詞的文檔。但是我不確定是否需要提取10克並查看這兩個單詞是否出現，然後對每個文檔計數，或者是否有更有效的方法。

0熱度

1回答

尋找一種尋找不同順序的兩個單詞元組列表之間交集的優雅方式

我認爲它最好展示我正在嘗試做的一個例子。重點是我正在尋找一個優雅的方式這樣做。比方說，我有元組的兩個列表： x = [('a', 'c', 'e'), ('k', 'n')] y = [('e', 'd', 'w'), ('c', 'a', 'e'), ('n', 'k')] z = set(x).intersection(y) 如果我計算x和y之間的十字路口，我得到一個空集。我的目標

1熱度

1回答

CouchDB的：並置的看法和鍵

在我的沙發上我有這樣的文件對： { _id: "DOCID", type: "Task", info: { k1: "v1", k2: "v2" } } { _id: "ANOTHER DOCID", type: "Final", task: "DOCID", author: "Authorname" } 對於一個作家

1熱度

1回答

從文本語料庫一個給定的單詞提取搭配詞 - 的Python

我試圖找出如何提取特定詞的搭配詞出來的文字。如：在統計上顯着的搭配，例如：整個文本語料庫中的「霍比特人」一詞？我期待類似於單詞列表（搭配）或者可能是元組（我的單詞+它的搭配）的結果。我知道如何使雙邊和使用NLTK卦，以及如何選擇只包含我感興趣字二環或卦。我正在使用下面的代碼（改編自this StackOverflow question）。 import nltk from nltk.collo