我有一個詞,讓我們說'美國',和一個文本文件。我想知道整個文件是否關於'美國'。 「美國」這個詞在文件中可以提到100次或1000次,但是到這一天結束的時候文件可能會談到中國。Python是否爲文本關係提供任何庫?
我經歷了Python中的情感分析庫,但是隻有當doc以正面,負面或中立的方式提及這個詞時,這些庫纔會返回。
我也可以統計單詞的提及次數和單詞與文檔中每個單詞的相似度,但仍不知道如何判斷整個文檔是否與提及的單詞有關。
Python中是否有任何庫可以做到這一點,或任何API?
我有一個詞,讓我們說'美國',和一個文本文件。我想知道整個文件是否關於'美國'。 「美國」這個詞在文件中可以提到100次或1000次,但是到這一天結束的時候文件可能會談到中國。Python是否爲文本關係提供任何庫?
我經歷了Python中的情感分析庫,但是隻有當doc以正面,負面或中立的方式提及這個詞時,這些庫纔會返回。
我也可以統計單詞的提及次數和單詞與文檔中每個單詞的相似度,但仍不知道如何判斷整個文檔是否與提及的單詞有關。
Python中是否有任何庫可以做到這一點,或任何API?
這裏沒有任何真正好的完整解決方案庫。您可能會想要使用NLTK這樣的詞來進行詞幹分析(http://www.nltk.org)。 Stemming是以下內容:「法拉利 - >跑車 - >車 - >運輸」,這使您能夠看到一個詞的「基礎」概念。
然後你可能會想要做一些TF/IDF分析來確定文件到底是什麼。這將幫助您確定哪些詞很重要(http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html)。
對TF好的教程/ IDF在這裏可以看到:在這裏http://stevenloria.com/finding-important-words-in-a-document-using-tf-idf/
非常感謝,我會看看! – codeDojo
檢查主題建模:https://textacy.readthedocs.io/en/latest/ – MedAli
@MedAli謝謝你,我會考慮看它。 – codeDojo
我認爲這個鏈接中給出的代碼可能派上用場。使用此代碼可以將一個文本中詞語頻率最高的句子彙總。 https://github.com/assafelovic/nlp_url_summarizer –