如何查找文本

-1

我知道身體的主要議題是，在NLP它是決定一個句子或可能一個段落的主題是一個挑戰。然而，我試圖確定標題可能是什麼樣的維基百科文章（當然不使用其他方法）。我唯一的辦法是找到最頻繁的單詞。有關紐約市的文章，這些都是頂級的結果：如何查找文本

[('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('===', 70), ('island', 68), ('largest', 66), ('park', 64), ('also', 56), ('area', 52), ('american', 49)]

從這個我可以看到某種統計學意義是從361到177的銳減無論如何，我既不是統計或NLP專家（實際上我是一個完整的noob在這兩個）所以是這是一個可行的方式來確定一個更長的文本主題的主題。如果是這樣，我想要計算什麼數學？如果不是，那麼在NLP中是否有其他方式來確定大量文本的主題或標題？作爲參考，我使用NLTK和Python 3

來源

2016-07-25 Dylan Siegler