2016-07-25 22 views
-1

我知道身體的主要議題是,在NLP它是決定一個句子或可能一個段落的主題是一個挑戰。然而,我試圖確定標題可能是什麼樣的維基百科文章(當然不使用其他方法)。我唯一的辦法是找到最頻繁的單詞。有關紐約市的文章,這些都是頂級的結果:如何查找文本

[('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('===', 70), ('island', 68), ('largest', 66), ('park', 64), ('also', 56), ('area', 52), ('american', 49)] 

從這個我可以看到某種統計學意義是從361到177的銳減無論如何,我既不是統計或NLP專家(實際上我是一個完整的noob在這兩個)所以是這是一個可行的方式來確定一個更長的文本主題的主題。如果是這樣,我想要計算什麼數學?如果不是,那麼在NLP中是否有其他方式來確定大量文本的主題或標題?作爲參考,我使用NLTK和Python 3

回答

2

如果你有足夠的數據,並希望有一個主題更大的文本像段落或文章可以使用主題建模方法,如LDA

Gensim有一個易於使用的執行LDA的。

+0

您能否提供一個指導教程的鏈接或詳細闡述您自己。 –

+0

這是一個循序漸進的教程由[gensim(https://radimrehurek.com/gensim/wiki.html) 如果您更感興趣的有關LDA內部工作你可以檢查[這](HTTPS方式:// www.cs.princeton.edu/~blei/kdd-tutorial.pdf) –

4

你可以考慮下面的算法使用。這些關鍵字提取算法

TF-IDF

TextRank

Here是一個教程讓你開始在ntlk使用TF-IDF

+0

咦?在你使用這些方法之前你要進行提取。 – tripleee