nltk

1熱度

1回答

比較wordnet相似性度量以查看哪些與我的語料庫最相關/有用 - 在嘗試計算lch時遇到此錯誤消息 - 計算lch相似性需要Synset（'home'.n.01）和Synset（'chronological.a.01'）具有相同的詞性。「在嘗試使用lch之前，我是否必須將列表中的所有單詞標準化爲相同的POS？作爲參考，我能夠成功地計算出wup_similarity，沒有任何POS標準化。我試

0熱度

3回答

去除

我不能想出停止詞和string.punctuation爲什麼這不工作： import nltk from nltk.corpus import stopwords import string with open('moby.txt', 'r') as f: moby_raw = f.read() stop = set(stopwords.words('english')

0熱度

1回答

解析NLTK塊串，形成樹

我有一個包含字符串文件像 Tree('S', [Tree('NP', [('criminal', 'JJ'), ('lawyer', 'NN')]), Tree('NP', [('new', 'JJ'), ('york', 'NN')])]) 是否有解析字符串再次產生樹結構的Python函數？我嘗試了Tree.fromstring函數，但它不解析。我產生這些字符串等預先低於 >>> imp

-1熱度

6回答

NLP通用英語對齊

我正在使用基於文本的自然語言處理自動化應用程序的任務流程。這就像聊天應用程序，用戶可以在文本區域輸入。同時，python代碼解釋用戶需要什麼，並執行相應的操作。應用具有命令/操作，如：創建任務給出名稱爲T1 添加任務的時間連接T1到T2 用戶可以鍵入聊天（自然語言）。例如：您可以創建名稱爲t1的任務併爲其分配時間。此外，連接t1到t2 我可以編寫一個規則驅動器解析器，但它僅限於少數規則

0熱度

2回答

如何用少於一定數量的項目刪除行或與熊貓蜇傷？

我已經搜索了很多，但無法找到解決這個特殊情況。我想刪除包含少於3個字符串或列表中的項目的任何行。我的問題將得到進一步解決。我正準備在熊貓中使用大型瑞典數據庫進行LDA主題建模，並將測試用例限制爲1000行。我只關注一個特定的列和我的做法至今一直如下： con = sqlite3.connect('/Users/mo/EXP/NAV/afm.db') sql = """ select * fr

0熱度

2回答

NLTK FreqDist將兩個單詞統一爲一個

我在NLTK的FreqDist上遇到了一些麻煩。首先讓我給你一些背景：我建立了一個網絡爬蟲，它可以抓取銷售可穿戴產品（智能手錶等）的公司的網頁。我正在做一些語言分析，對於那個分析我也使用了一些NLTK函數 - 在這個例子中是FreqDist。 nltk.FreqDist工作正常 - 工作乾得很好，我沒有得到任何錯誤等我唯一的問題是，這個詞「心臟率」，往往出現因爲我生成的最常用的單詞的列表，我

2熱度

1回答

用中文NLTK運行StanfordPOSTagger時意外的格式

我已經安裝了Python 3.6.0，NLTK 3.2.4，並下載了Stanford POS Tagger 3.8.0。然後我試圖運行下面的腳本： #!/usr/bin/env python3 from nltk.tag import StanfordPOSTagger st = StanfordPOSTagger('chinese-distsim.tagger') print(st

1熱度

1回答

Wordnet信息內容（IC）文件Python

NLTK Wordnet中的IC文件之間的主要區別是否有任何文檔？具體來說，尋找brown_ic，semcor_ic，genesis_ic等之間的差異，所以我可以決定哪一個是最適合我的相似度努力字語料。其他問題：完成所有上述相似的措施要求所有的單詞在同一POS？

1熱度

1回答

是否有語義相似性方法在語義準確性方面優於word2vec方法？

我正在查看各種語義相似度方法，如word2vec，字移動距離（WMD）和fastText。就語義相似性而言，fastText並不比Word2Vec好。 WMD和Word2Vec具有幾乎相似的結果。我想知道是否有一種替代方法在Word2Vec模型中的語義準確性超過了？我的使用情況：現象單詞的嵌入了兩句，然後用餘弦相似性找到它們的相似性。

1熱度

1回答

跨多種語言的語義相似度

我使用單詞嵌入來查找兩個句子之間的相似度。使用word2vec，如果一個句子是英語，另一個是荷蘭語（儘管不是很好），我也會得到一個相似性度量。所以我開始想知道是否可以計算兩種不同語言的兩個句子之間的相似性（沒有明確的翻譯），特別是如果語言有一些相似之處（英語/荷蘭語）？