n-gram

    1熱度

    1回答

    我正在嘗試使用python來幫助我破解Vigenère密碼。我對編程相當陌生,但我設法制作了一個算法來分析一串文本中的二元語音頻率。這是我到目前爲止有: import nltk, string from nltk import bigrams Ciphertext = str(input("What is the text to be analysed?")) #Removes spac

    0熱度

    1回答

    我是NLP的新手,有一個非常簡單的問題,我希望問很多,但老實說在任何地方都找不到:在同一個分類器(如unigrams + bigrams)中可以使用多種類型的ngram? 我試過這樣做,至少對於樸素貝葉斯來說,它給我的準確性比只有bigrams更高(雖然低於unigrams),但我不確定它是否是合法的做法。我所關心的一個問題是,如果這是一個適用的術語,即'運氣'和'好運'都接近信息最豐富的特徵列表

    1熱度

    1回答

    我的彈性服務器中有文本索引。 我已經實現了NGRAM分詞是這樣的: "analysis": { "analyzer": { "ngram_analyzer": { "type": "custom", "tokenizer": "ngram_tokenizer" } }, "tokenizer": {

    1熱度

    1回答

    我需要使用Google Books N-grams的詞彙數據來構造一個(稀疏!)矩陣的詞共同出現(其中行是詞和列是相同的單詞,並且單元格反映它們出現在相同的上下文窗口中的次數)。所得到的tcm將被用於測量一系列詞彙統計量並作爲向量語義學方法(手套,LSA,LDA)的輸入。 爲了參考,谷歌圖書(V2)的數據集被如下格式化(製表符分隔) ngram year match_count volume_c

    1熱度

    1回答

    我從一堆HTML文件中按照特定模式提取三個圖。當我打印它們時,我會得到一份清單(每行是三格)。我想將它打印出來作爲進一步的文本分析,但是當我嘗試它時,它只打印第一個三字節。如何將所有的三維圖打印到outfile? (三列表的列表)。理想情況下,我希望將所有的三元組合併成一個列表,而不是將多個列表與一個三元列表合併。您的幫助將不勝感激。 我的代碼看起來像這樣至今: from nltk import

    0熱度

    1回答

    我必須通過使用n-gram匹配兩篇研究論文的標題(僅適用於uni,bi和tri) 我的主管已經問過我相匹配的時候,我必須將更多的權重分配給bigram匹配的詞條分數而不是單字符匹配術語得分和更多的權重卦匹配術語得分比雙字符匹配術語得分。 例如,兩個bigrams在標題匹配,然後得分= 2 和兩個tigrams匹配,然後得分= 2 我必須尋找一些值,然後乘以它將增加trigram得分和減少bigra

    0熱度

    1回答

    這裏是我的索引設置JSON創建索引,當我測試 http://localhost:9200/myIndex/_analyze?text=「測試儀」 &儀= nGram_analyzer 我得到了以下異常。 { "error": { "root_cause": [ { "type": "remote_transport_exception", "

    0熱度

    1回答

    我下面的coursera神經網絡類,我想通過使用python + keras而不是八度的分配。 我想預測給出前三個的第四個詞。我的輸入文件總共有250個單詞。 該模型應該有一個嵌入層,將每個單詞映射到50-d向量空間,一個隱藏層,200個具有S形激活函數的神經元和一個250單元的輸出層,可以使第四個單詞的概率相等通過softmax激活對我的詞彙量。 我有尺寸問題。這裏是我的代碼: from ker

    1熱度

    1回答

    我在找到用例的解決方案時遇到了問題。 基本上,這很簡單:我需要執行「包含」查詢,如SQL like '%...%'。 我看到有一個正則表達式查詢,我實際上設法得到完美的工作,但因爲它似乎規模很大,我試圖nGrams。現在,我已經和他們玩過,知道「他們是如何工作的」,但這種行爲並不是我期望的行爲。 基本上,我配置我的分析器爲mingram = 2,maxgram = 20。說我索引一個名爲「Chri

    1熱度

    1回答

    我尋求最有效和最簡單的方法來將800k +學術文章分類爲與定義的概念空間相關的(1)或不相關的(0)(這裏:learning as it relates to work)。 數據是:標題&抽象(平均= 1300個字符),可以使用 任何方法或甚至組合,包括監督的機器學習和/或通過建立產生一些閾值列入特性,其中其他。 方法可以利用key terms that describe the conceptu