collocation

    0熱度

    2回答

    所以我真的很新,在這裏點燃apache。我想要做的是加載具有類似屬性的數據,而不是將其加載到隨機實例中。例如,假設,這種形式的一些數據: ROLL_NO 34569 12349 34439 45329 32359 43549 53259 34229 如u可以看到,上述數據是所有與結束9.說我有兩個點燃實例A和B當前正在運行。 有沒有什麼辦法可以將這些以9結尾的數據加載到實例A或

    0熱度

    2回答

    我正在尋找我正在實施的兩個功能的新想法。 1)文字分割特徵:搭配 Ex: User Query: Resolved Query: ----------- --------------- It has lotsofwordstogether It has lots of words together I am using

    0熱度

    1回答

    我正在使用NLTK Collocations查找三字母單詞,'training_set'是一個包含多行文本的字符串。 finder = TrigramCollocationFinder.from_words(str(training_set)) print finder.nbest(trigram_measures.pmi, 5) 但我得到的輸出作爲 [('\xe5', '\x8d', '\

    0熱度

    2回答

    我有一個包含70,429個文件(296.5 mb)的語料庫。我試圖通過使用整個語料庫來找到雙格。我寫了下面的代碼; allFiles = "" for dirName in os.listdir(rootDirectory): for subDir in os.listdir(dirName): for fileN in os.listdir(subDir):

    3熱度

    2回答

    我有一個語料庫,我有一個詞。對於語料庫中每個單詞的出現,我想得到一個包含前面的k個單詞和單詞後面的k個單詞的列表。我正在做這個算法確定(見下文),但我想知道NLTK是否提供了一些功能來滿足我錯過的需求? def sized_context(word_index, window_radius, corpus): """ Returns a list containing the windo

    3熱度

    1回答

    我看到多個問題和答案,說NLTK搭配不能超越雙克和三克。 例如,這一個 - How to get n-gram collocations and association in python nltk? 我看到有一個叫 nltk.QuadgramCollocationFinder東西 類似 nltk.BigramCollocationFinder和nltk.TrigramCollocationFin

    1熱度

    1回答

    我想對兩個字符串出現在設定距離內的文檔進行計數,在彼此的10個字內。我們說'德國*'和'戰爭'。 我不想統計它們總共出現的次數,但只計算出現集合的文檔數量(如果出現一次,則將其計爲一次)。 我知道如何計算包含單詞的文檔。但是我不確定是否需要提取10克並查看這兩個單詞是否出現,然後對每個文檔計數,或者是否有更有效的方法。

    0熱度

    1回答

    我認爲它最好展示我正在嘗試做的一個例子。重點是我正在尋找一個優雅的方式這樣做。 比方說,我有元組的兩個列表: x = [('a', 'c', 'e'), ('k', 'n')] y = [('e', 'd', 'w'), ('c', 'a', 'e'), ('n', 'k')] z = set(x).intersection(y) 如果我計算x和y之間的十字路口,我得到一個空集。 我的目標

    1熱度

    1回答

    在我的沙發上我有這樣的文件對: { _id: "DOCID", type: "Task", info: { k1: "v1", k2: "v2" } } { _id: "ANOTHER DOCID", type: "Final", task: "DOCID", author: "Authorname" } 對於一個作家

    1熱度

    1回答

    我試圖找出如何提取特定詞的搭配詞出來的文字。如:在統計上顯着的搭配,例如:整個文本語料庫中的「霍比特人」一詞?我期待類似於單詞列表(搭配)或者可能是元組(我的單詞+它的搭配)的結果。 我知道如何使雙邊和使用NLTK卦,以及如何選擇只包含我感興趣字二環或卦。我正在使用下面的代碼(改編自this StackOverflow question)。 import nltk from nltk.collo