nlp

    0熱度

    1回答

    只需閱讀gensim頁面上的doc2vec命令即可。 我很好奇命令「intersect_word2vec_format」。 我對這個命令的理解是,它允許我將預訓練的word2vec模型中的矢量值插入到我的doc2vec模型中,然後使用預訓練的word2vec值訓練我的doc2vec模型,而不是從我的文檔語料庫生成單詞矢量值。結果是我得到了一個更準確的doc2vec模型,因爲我使用的pretrain

    0熱度

    1回答

    我有一個詞彙詞典在這種形狀 6 ابن جزمه 1 7 ابو جهل -1 8 اتق الله -1 9 اتقو الله 1 我想創建一個包含基於詞典添加每個單詞的得分每個句子的得分一個新的列表,如果沒有的話存在追加零 當我實現我的代碼,我得到len(lex_score) = 3679後,我加入elif的條件下,我得到len(lex_score) = 95079 的LEN(le

    -1熱度

    3回答

    我有完成句子的任務,我有主語,動詞,副詞或主語,我需要的是介於兩者之間的適當介詞。是否有任何NLP工具可以分配可與動詞結合的介詞? 最佳

    1熱度

    1回答

    我想訓練一個模型中使用opennlp分類鳴叫。我的問題是我應該在用於訓練模型的tweets上執行標記化,停止單詞刪除等操作,還是應該直接使用tweet而不執行消毒處理?

    4熱度

    2回答

    我有一個線串的: "specificationsinaccordancewithqualityaccreditedstandards" 需要被分成標記化的詞語,如: "specifications in accordance with quality accredited standards" 我已經試過nltk的word_tokenize但它不能轉換, 上下文:我解析PDF文檔到文本文件

    1熱度

    1回答

    我瞭解該模型在配置階段使用之前訓練過的詞性標註。但是如果大多數詞語都是新的,那麼解析器如何決定其操作呢?

    1熱度

    1回答

    我想用gensim word2vec模型獲得最可能的單詞序列。我發現了一個預訓練的模型,它提供了以下文件: word2vec.bin word2vec.bin.syn0.npy word2vec.bin.syn1neg.npy 這是我的代碼試圖讓句子的概率有這位模特: model = model.wv.load(word_embedding_model_path) model.hs =

    0熱度

    1回答

    我需要計算生物實體共同出現的PMI分數,例如, Gene A - Gene B或Gene C - Disease A。已從Pubtator中提取了共現。我使用Python 3. 對於一組文檔,我已經通過共現類別提取了所有實體的各個計數freq(x)和freq(y),例如, Gene-Gene或Gene-Disease,並且我有實體對freq(x,y)的同現計數。所有計數均存儲在Dict中。 什麼是

    0熱度

    3回答

    我正在開發OpenNLP項目並遇到一些諸如特徵生成等內容。 「功能」一詞到底意味着什麼?如果你可以用laymans術語解釋它,那將是非常好的

    1熱度

    1回答

    我執行文本分類的快速文本,鏈接https://github.com/facebookresearch/fastText/blob/master/tutorials/supervised-learning.md 我想知道什麼是精度@ 1,或P @ 5是什麼意思?我做了一個二元分類,但是我測試了不同的數字,我不明白的結果: haos-mbp:fastText hao$ ./fasttext test