tagged-corpus

    2熱度

    1回答

    我從來沒有寫過Makefiles,但我懷疑它會對我的情況有所幫助。我有一些文本文件需要預處理才能提取機器學習功能。該目錄結構可能是這樣的: / +---Makefile +---/corpus | +-- a.txt | +-- b.txt | +-- ... | +---/wordcounts | +-- a.wordcount | +-- b.wordcount | +--

    4熱度

    2回答

    我只是關注NLTK書的第5章,tagged_words()中的'simplify_tags'參數似乎是意想不到的。我使用Python 3.4,PyCharm和標準的NLTK包。 In[4]: nltk.corpus.brown.tagged_words() Out[4]: [('The', 'AT'), ('Fulton', 'NP-TL'), ...] In[5]: nltk.corpus.

    1熱度

    1回答

    我想使用NLTK構建pos標籤語料庫。這樣我就可以根據它來訓練我的模型。 到目前爲止我已經提到很多來源,但每個人只是解釋如何閱讀你的標註語料和閱讀單詞,句子等,以下是一段代碼,我想: from nltk.corpus.reader import TaggedCorpusReader reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_

    3熱度

    3回答

    我正在嘗試編寫一個使用Java中的自然語言詞類的程序。我一直在谷歌上搜索,並沒有發現整個布朗語料庫(或另一個標記詞的語料庫)。我一直在尋找NLTK信息,這些信息我不感興趣,我希望能夠將數據加載到Java程序中,並總結出單詞的出現(以及它們成爲什麼詞性的可能性)。 我不要想要使用像斯坦福一樣的Java庫,我想自己玩我的語料庫數據。

    4熱度

    3回答

    我一直在利用大量不同的語料庫進行自然語言處理,並且我一直在尋找一個已經用Wordnet Word Senses註釋的語料庫。 我知道這個信息可能沒有一個大的語料庫,因爲語料庫需要手動建立起來,但必須有一些事情要做。 此外,如果沒有語料庫存在,是否至少有一個有意義的帶註釋的ngram數據庫(每個詞的定義的時間百分比或每個詞網定義的數字計數取決於如何常識的意思是)?註釋爲共發現

    1熱度

    1回答

    我對Python沒有超級經驗,但我想用語料庫做一些數據分析,所以我在NLTK Python中做這部分。 我想要瀏覽整個語料庫並製作包含出現在語料庫數據集中的每個詞的詞典。我希望能夠在這本詞典中搜索一個單詞,並找出這個單詞出現的次數作爲什麼詞性(標籤)。因此,例如,如果我要搜索'狗',我可能會找到100個名詞標記和5個動詞標記等。 最終目標是將該文件以.txt或其他方式從外部保存並加載到另一個文件程

    -1熱度

    1回答

    Using an NLTK Conditional Frequency Distribution and the nltk.bigrams function, train a bigram model on the Genesis: text = nltk.corpus.genesis.words('english-kjv.txt') bigrams = nltk.bigrams(text)

    3熱度

    3回答

    我最初使用下面的賓州樹庫惡搞從NLTK: POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN')) 然而,這達不到上發言的文字。例如,「hello」在它應該是時不被認爲是一個感嘆詞。我從這裏(In NLTK pos_tag, why 「hello」 is classified as Noun

    0熱度

    2回答

    我有以下代碼可以在movie_review語料庫中打印15個最常見的事件。 import nltk import random from nltk.corpus import movie_reviews documents =[] for category in movie_reviews.categories(): for fileid in movie_reviews.f

    -1熱度

    1回答

    我在同一個文件夾中的cats.txt中列出了一堆文件和類別。我想爲此創建一個categorizedtaggedcorpusreader。 這就是我的文件的外觀。 在nltk中嘗試了很多方法,但無法創建Categorizedtaggedcorpusreader,在我的cats.txt裏面我有文件名和類別名稱,空格分開,每個文件名可以有多個類別。 例如: mail_1_adapter適配器 mail_