nltk-trainer

0熱度

1回答

我最近使用首發NLTK看着數據提取。雖然有幾個例子，用於檢測「真實」的名稱，位置等技術。我還沒有找到一個有效的方法來檢測「由」或「虛」的名字。一個例子字符串是：他的名字是wuzzywugg，他有一個名爲fizzbuzz 狗，我想訓練NLTK是能夠檢測「wuzzywugg」和「fizzbuzz」的名字的字符。看到了一些解決方案，依靠開頭大寫字母詞，但這種感覺很「哈克」而且容易出錯和誤報。如何解

0熱度

1回答

NLTK - 將分塊樹轉換爲列表（IOB標記）

我需要執行命名實體識別/分類，並以IOB標記格式生成輸出。我使用的是NLTK chunker，由NLTK-train library交付，但生成樹，而不是IOB標記列表。 def chunk_iob(list_of_words): nltk_tagger = nltk.data.load("taggers/conll2002_aubt.pickle") nltk_chunke

0熱度

1回答

使用機器學習算法的詞分類

我是機器學習的新手。我目前想要的是分類是否某些單詞是否屬於某一類別。讓我更具體一些，輸入一些單詞時，我需要檢查這些單詞是否屬於「馬拉雅拉姆語」。例如：enthayi ninakk sugamanno？這些是用英語表達的一些馬拉雅拉姆語單詞。在給出這樣的輸入時，需要檢查訓練的數據，並且如果有任何輸入單詞屬於「馬拉雅拉姆語」類別，則需要顯示它是馬拉雅拉姆語。我已經嘗試做.. 我試着將它與Nai

0熱度

1回答

如何NLTK培訓新標籤命名實體識別

我是新來的蟒蛇，我需要從文本中提取一個職位和我需要知道如何訓練的命名實體識別和數據，其中訓練數據

2熱度

2回答

查找與n元語法匹配單詞

數據集：包含的屬性/土地特徵的無監督分類 df['bigram'] = df['Clean_Data'].apply(lambda row: list(ngrams(word_tokenize(row), 2))) df[:,0:1] Id bigram 1952043 [(Swimming,Pool),(Pool,in),(in,the),(the,roof),(roof,top),

0熱度

1回答

NLTK MaxentClassifier與否定案例列車

我是新的在nltk圖書館，我試圖教我的分類器一些標籤與我自己的語料庫。爲此，我有IOB標籤像這樣的文件：由 self.classifier = nltk.MaxentClassifier.train(train_set, algorithm='megam', trace=0) How O do B-MYTag you I-MYTag know O , O where B-MYTag

0熱度

3回答

如何添加自定義語料庫到本地機器在nltk

我有一個自定義語料庫創建數據，我需要做一些分類。我擁有與movies_reviews語料庫包含的相同格式的數據集。根據nltk文檔，我使用以下代碼訪問movie_reviews語料庫。無論如何，都可以將任何自定義語料庫添加到nltk_data/corpora目錄中，並以訪問現有語料庫的相同方式訪問該語料庫。 import nltk from nltk.corpus import movi

0熱度

1回答

NLTK樸素貝葉斯分類器培訓問題

我試圖訓練分類器的推文。然而，問題在於它說分類器具有100％的準確性，並且最豐富的特徵列表不顯示任何內容。有誰知道我做錯了什麼？我相信我對分類器的所有輸入都是正確的，所以我不知道它出錯的地方。這是我使用的數據集： http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip 這是我的代碼： impor

4熱度

1回答

Python NLTK可視化

我目前正在使用python NLTK進行自然語言處理。我想生成一些輸入表示的美麗圖形。我能做些什麼來得到這樣的東西？

0熱度

1回答

得到負面評論的'pos'測試

好吧，讓我訓練了一個NaiveBayes電影評論分類器...但是，當我運行它反對負面評論（從一個網站，我複製並粘貼到一個txt文件）我是'pos'...我做錯了什麼？這是下面的代碼： import nltk, random from nltk.corpus import movie_reviews documents = [(list(movie_reviews.words(fileid)),