Python是否爲文本關係提供任何庫？

我有一個詞，讓我們說'美國'，和一個文本文件。我想知道整個文件是否關於'美國'。「美國」這個詞在文件中可以提到100次或1000次，但是到這一天結束的時候文件可能會談到中國。Python是否爲文本關係提供任何庫？

我經歷了Python中的情感分析庫，但是隻有當doc以正面，負面或中立的方式提及這個詞時，這些庫纔會返回。

我也可以統計單詞的提及次數和單詞與文檔中每個單詞的相似度，但仍不知道如何判斷整個文檔是否與提及的單詞有關。

Python中是否有任何庫可以做到這一點，或任何API？

2017-09-06 codeDojo

檢查主題建模：https://textacy.readthedocs.io/en/latest/ – MedAli

@MedAli謝謝你，我會考慮看它。 – codeDojo

我認爲這個鏈接中給出的代碼可能派上用場。使用此代碼可以將一個文本中詞語頻率最高的句子彙總。 https://github.com/assafelovic/nlp_url_summarizer –

這裏沒有任何真正好的完整解決方案庫。您可能會想要使用NLTK這樣的詞來進行詞幹分析（http://www.nltk.org）。 Stemming是以下內容：「法拉利 - >跑車 - >車 - >運輸」，這使您能夠看到一個詞的「基礎」概念。

然後你可能會想要做一些TF/IDF分析來確定文件到底是什麼。這將幫助您確定哪些詞很重要（http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html）。

2017-09-06 15:57:19 jmercouris

非常感謝，我會看看！ – codeDojo

回答