我知道身體的主要議題是,在NLP它是決定一個句子或可能一個段落的主題是一個挑戰。然而,我試圖確定標題可能是什麼樣的維基百科文章(當然不使用其他方法)。我唯一的辦法是找到最頻繁的單詞。有關紐約市的文章,這些都是頂級的結果:如何查找文本
[('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('===', 70), ('island', 68), ('largest', 66), ('park', 64), ('also', 56), ('area', 52), ('american', 49)]
從這個我可以看到某種統計學意義是從361到177的銳減無論如何,我既不是統計或NLP專家(實際上我是一個完整的noob在這兩個)所以是這是一個可行的方式來確定一個更長的文本主題的主題。如果是這樣,我想要計算什麼數學?如果不是,那麼在NLP中是否有其他方式來確定大量文本的主題或標題?作爲參考,我使用NLTK和Python 3
您能否提供一個指導教程的鏈接或詳細闡述您自己。 –
這是一個循序漸進的教程由[gensim(https://radimrehurek.com/gensim/wiki.html) 如果您更感興趣的有關LDA內部工作你可以檢查[這](HTTPS方式:// www.cs.princeton.edu/~blei/kdd-tutorial.pdf) –