nlp

    2熱度

    1回答

    在多個出版物中描述這個問題涉及在CNN使用位置矢量的關係分類,如以下通過Zeng等人:http://www.aclweb.org/anthology/C14-1220 我想在張量流中實現這樣一個模型。我的問題如下: 使用隨機初始化向量表示位置信息有什麼好處嗎?舉例來說,爲什麼不用一個熱門的矢量編碼來表示位置?不建議將單熱矢量與密集的單詞矢量結合起來嗎? 根據單詞向量的維度,位置向量應該具有最小維度

    4熱度

    4回答

    我很抱歉,我的天真,但我不明白爲什麼字符嵌入是神經網絡訓練過程(word2vec)的結果實際上是矢量。 嵌入是降維的過程,在訓練過程中,NN將字的1/0數組減少爲更小的數組,該過程沒有采用任何適用矢量算術的處理。 因此,我們得到的只是數組而不是矢量。爲什麼我應該將這些數組看作向量?儘管我們得到了矢量,爲什麼每個人都將它們描述爲來自原點(0,0)的矢量? 再次,如果我的問題看起來很愚蠢,我很抱歉。

    3熱度

    1回答

    我在R中使用tokenizers包來標記文本,但非字母數字符號(如「@」或「&」)已丟失,我需要保留它們。下面是我使用的功能: tokenize_ngrams("My number & email address [email protected]", lowercase = FALSE, n = 3, n_min = 1,stopwords = character(), ngram_delim

    0熱度

    1回答

    我有2句使用NLP在他們的語法的基礎上,比較於語法的基礎上兩句。我對NLP完全陌生,想知道是否有算法來確定這一點。我知道如何使用單詞相似性和情感進行比較。

    0熱度

    1回答

    我處理在R A vcorpus,看起來像這樣: 我打電話內容 - >內容,然後將內容 - >薈萃>爲每個單獨的文檔ID。我想只寫內容 - >內容和內容 - >元 - > ID來爲每個文檔稍後分開文本文件。

    1熱度

    1回答

    我在烏爾都語有一個10000字以上的語料庫。現在我想要的是清理我的數據。當我使用正則表達式時,在我的文本中會出現一個特殊的uni編碼數據,例如「!?」,它使我錯誤地發現數據不是編碼形式。 請提供一些幫助來清理我的數據。 謝謝 這裏是我的樣本數據: ظہیر احمد ماہرہ خان کی، تصاویر، نے دائیں اور بائیں والوں کو آسمانوں پر پہنچا

    0熱度

    1回答

    我正在從文檔(pdf)中進行命名實體提取。每個PDF包含組實體(近16個不同類型的實體) 這裏是我的步驟,構建NLP和ML車型: Step 1:分析文檔。有近2百萬令牌(單詞)。用這些詞和CBOW方法構建word2vec模型。 Step 2:通過使用word2vec模型,生成向量的單詞在douments。 Step 3:根據域,我爲培訓,驗證和測試標記單詞(向量)。 Step 4:帶標籤的數據,訓

    1熱度

    1回答

    我想比較從斯坦福分析器從NLTK的結果,但我不知道爲什麼我得到不同的結果時,我與stanford parser 我已檢查相關問題但這對我沒有多大幫助。 stan_dep_parser = StanfordDependencyParser() # stanford parser from NLTK dependency_parser =stan_dep_parser.raw_parse("Four

    0熱度

    1回答

    我正在導入一堆文件並嘗試將所有字符讀入一個變量。我需要保留這個命令。我在Stackoverflow上找到了我需要的代碼,但它在前面添加了0。所以而不是我的「0」 data <- "" 這仍然使我的數據變量在開始時留空白。我無法對它進行子集化並刪除所有「空白」,因爲我的輸入有一些需要保留在那裏。我怎樣才能刪除第一個空白「」或閱讀我所有的文件,而不必在那裏添加那個空白。 setwd("C:\\Us

    0熱度

    2回答

    我想檢查句子是否具有特定的詞性標記結構。我可以使用python自然語言工具包來做到嗎?如果是這樣,怎麼樣?