2017-09-06 77 views
1

我有一個詞,讓我們說'美國',和一個文本文件。我想知道整個文件是否關於'美國'。 「美國」這個詞在文件中可以提到100次或1000次,但是到這一天結束的時候文件可能會談到中國。Python是否爲文本關係提供任何庫?

我經歷了Python中的情感分析庫,但是隻有當doc以正面,負面或中立的方式提及這個詞時,這些庫纔會返回。

我也可以統計單詞的提及次數和單詞與文檔中每個單詞的相似度,但仍不知道如何判斷整個文檔是否與提及的單詞有關。

Python中是否有任何庫可以做到這一點,或任何API?

+0

檢查主題建模:https://textacy.readthedocs.io/en/latest/ – MedAli

+0

@MedAli謝謝你,我會考慮看它。 – codeDojo

+0

我認爲這個鏈接中給出的代碼可能派上用場。使用此代碼可以將一個文本中詞語頻率最高的句子彙總。 https://github.com/assafelovic/nlp_url_summarizer –

回答

1

這裏沒有任何真正好的完整解決方案庫。您可能會想要使用NLTK這樣的詞來進行詞幹分析(http://www.nltk.org)。 Stemming是以下內容:「法拉利 - >跑車 - >車 - >運輸」,這使您能夠看到一個詞的「基礎」概念。

然後你可能會想要做一些TF/IDF分析來確定文件到底是什麼。這將幫助您確定哪些詞很重要(http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)。

對TF好的教程/ IDF在這裏可以看到:在這裏http://stevenloria.com/finding-important-words-in-a-document-using-tf-idf/

+0

非常感謝,我會看看! – codeDojo

相關問題