1
A
回答
1
頻數會得到你一些的方式,但自然語言處理將提供更好的結果,因爲它使用的語言技巧提供更高的精度。
Topia.termextract使用零件的詞性(POS)標註算法,並可以從PyPI將http://pypi.python.org/pypi/topia.termextract/
2
一個簡單的文本摘要裝置:http://pythonwise.blogspot.com/2008/01/simple-text-summarizer.html
算法:
1. For each word, calculate it's frequency in the document
2. For each sentence in the document
score(sentence) = sum([freq(word) for word in sentence])
3. Print X top sentences such that their size < MAX_SUMMARY_SIZE
相關問題
- 1. 爲什麼有些網頁打印比其他網頁好?
- 2. 什麼是摘要認證?
- 3. 重構Ruby on Rails的網頁摘要
- 4. 總結網頁的簡短摘要?
- 5. 得到一個網頁的「摘要」
- 6. 摘要多頁
- 7. Qt的 - 什麼是我們這些代碼的含義是網頁摘要
- 8. 有抱負的網頁設計師有什麼好的資源?
- 9. 主頁上有多個豐富網頁摘要?
- 10. 返回網頁摘要使用Solr
- 11. 豐富網頁摘要嵌套問題
- 12. 將驗證摘要添加到網頁
- 13. 搜索引擎網頁摘要
- 14. 摘要網格extjs
- 15. 所有網站頁面上的購物車摘要
- 16. 什麼是itunes上的「Territory」連接版本摘要頁面
- 17. dojo網格的摘要行
- 18. 每頁報告的摘要
- 19. Git包文件名 - 什麼是摘要?
- 20. GitHub Desktop中的摘要和描述有什麼區別?
- 21. hashlib - 爲什麼摘要匹配,但裸露的對象沒有?
- 22. 我爲什麼要使用摘要,我能從這些摘要中得到什麼?
- 23. 通過網頁檢查更新有什麼好策略?
- 24. 有沒有一個很好的CSS摘要資源?
- 25. 預覽/摘要頁面
- 26. 好的方法去做頁面摘錄
- 27. 創建更高級,動態和用戶友好的網頁需要什麼?
- 28. 爲什麼要吃好鹽?
- 29. gemspec摘要和gemspec描述有什麼區別?
- 30. 摘要CharBuffer和包專用HeapCharBuffer:有什麼意義?
這樣做的問題是,像「它」,「和」等常用詞會得到優先考慮。一個更好的想法是使用相對頻率的概念,在這個概念中,你得到一個單詞的頻率,並用一個表示常規文本出現頻率的值來劃分它。 – 2009-12-04 00:09:38