我有一個本地存儲的半大網站(使用httrack從服務器上撕掉)。這個特定的網站的目錄結構有幾個文件夾/子文件夾以及大量的html文件。我想知道是否有任何工具(它可以是任何東西:腳本,C++/c代碼等),這將允許我在所有html文件中生成一個單詞頻率計數器表。 這裏的訣竅是我只關心計算實際的內容詞(即不是html代碼,儘管如果情況如此,可以很容易地刪除它們)。 任何建議,非常感謝!本地存儲的網站的詞頻計數器
0
A
回答
3
一旦剝離出的HTML代碼,使用collections.Counter
>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words
如果你沒有剝離出HTML的方式,看看lxml這樣做
希望這有助於
2
參見Hermetic Word頻率計數器的高級版本http://www.hermetic.ch/wfca/wfca.htm,它掃描多個文件並去除HTML標籤。不是免費的,但在計算HTML文件中的單詞方面做得很好。即使子文件夾。
相關問題
- 1. 網站存儲數據的地方
- 2. 如何存儲網站的視頻?
- 3. 用於網站本地化的網絡存儲
- 4. 歌詞網站的數據庫設計
- 5. jQuery詞頻計數器
- 6. 更好的地方來存儲網站
- 7. 計數詞頻
- 8. 詞頻計數
- 9. 亞馬遜s3存儲設計視頻網站
- 10. 網站在本地存儲敏感數據
- 11. ipad:運行本地網站和存儲數據
- 12. 如何將會話數據存儲在本地HTML網站上?
- 13. 將視頻保存到本地存儲
- 14. UIWebView顯示本地存儲的網站(HTML,圖像,Javascript)
- 15. 將Excel嵌入網站以編輯本地存儲的文檔
- 16. jQuery本地網絡存儲
- 17. 在Cookie或本地存儲(node/angular 2網站)中保存JWT
- 18. 網站命中php網站計數器
- 19. 作爲函數參數的本地存儲器中的本地存儲器的OpenCL指針?
- 20. 存儲常量數據的網站/
- 21. 社交網站的數據存儲
- 22. 網站基地音頻跟蹤號碼的視頻播放器
- 23. 我應該如何儲存歌詞網站的文字?
- 24. 用戶本地存儲而不是中央數據庫的Rails網站
- 25. Silverlight應用程序的網站 - 在網站上存儲數據
- 26. Rhomobile,播放視頻本地存儲
- 27. 網站如何存儲持久性/臨時狀態(不使用Cookie或本地存儲或數據庫存儲)?
- 28. 將計數器值存儲在本地並且安全
- 29. 本地存儲瀏覽器
- 30. 如何在互聯網網站上顯示本地存儲的圖像?
謝謝,我在考慮使用現有的工具來完成這項任務,而不是我必須做所有「骯髒的工作」:)雖然如果沒有現有的工具來解決這個問題,我可以繼續嘗試實現一個我自己。 –
@EveraldoAguiar:這是實現。安裝'lxml'並添加'from lxml import html; text = html.fromstring(doc).text_content()',你基本完成了。 –
如果你不想使用'lxml',你可以試試'lynx'的轉儲文本功能 – inspectorG4dget