0
A
回答
0
我目前的僱主開發了一個系統來對網頁進行分類。沒有任何有用的圖書館,我們可以找到,所以我們必須做我們自己的。我們不允許我們出去。
我可以給你一些提示。垃圾郵件分析器將電子郵件分爲垃圾或不垃圾。您可以使用貝葉斯,CRM-114等相同工具對任何文本(包括網頁)進行自己的分類。
你將不得不非常仔細地觀察這些結果,並給他們lot人類的反饋意見。你經常可以找到關鍵詞集合,這些集合對你而言會非常好。查找這些關鍵字集需要時間和精力,並且隨着時間的推移會發生一些變化。
您將不得不編寫代碼將網頁劃分爲主題部分,因爲大多數頁面並非都是一回事。有廣告框架,導航和其他東西。
1
要將未標記的數據排序到組中,您需要羣集,而不是分類。最完整的機器學習庫是基於Java的Weka。您可能首先需要從網頁中提取文本(完全刪除腳本和樣式元素,去除其他標籤),然後在執行羣集之前通過StringToWordVector過濾器運行文本。
相關問題
- 1. 沒有解決方案的衆所周知的idMappedPortTCP問題?
- 2. 有沒有一種衆所周知的方式來實現分頁與多個RSS源?
- 3. 本地主機的所有衆所周知的別名?
- 4. 有沒有一種衆所周知的將貨板分配給卡車的算法?
- 5. 專營仿函數時,模板類is_convertible到一個衆所周知的類型
- 6. 是否有乾燥JSON任何衆所周知的方法
- 7. 使用衆所周知的加密算法有什麼好處?
- 8. codecampserver中的StaticFactory是一個衆所周知的模式嗎?
- 9. Django的IF衆所周知聲明
- 10. SVM一個分類器對所有
- 11. 取消註冊RemotingConfiguration取消註冊衆所周知的類型
- 12. 是否有衆所周知的算法來推導解析器規則的「返回類型」?
- 13. 是否有一個衆所周知的算法填入網格給定的一組點?
- 14. 這個簡單的Haskell函數是否已經有一個衆所周知的名字?
- 15. 有沒有一個庫可以給我一個在另一個類中出現的類的所有實例?
- 16. python:是否有一個衆所周知的函數來標準化數據的JSON表示?
- 17. 有沒有人知道一個圖表代表所有Java包
- 18. 是否有一個衆所周知的設計模式允許在異步調用之後註冊回調?
- 19. 什麼是衆所周知的Webkit特定的僞元素?
- 20. 有沒有免費的OpenCV分類器庫?
- 21. 的Python:IF衆所周知聲明多次或
- 22. 衆所周知符號不與職能的工作
- 23. Nginx重定向。衆所周知的端點
- 24. 無需使用衆所周知的函數進行插值
- 25. 什麼是衆所周知的模型示例?
- 26. 如何使用QTcpServer偵聽衆所周知的TCP端口
- 27. 沒有已知的選擇器類'setAutoresizingMask'
- 28. IE,Firefox,Safari:想要寫入Internet過濾器:是否有我可以綁定的衆所周知的「掛鉤」?
- 29. 顯示前一個分類中的所有分類菜單prestashop
- 30. 有時AJAX聽衆是沒有得到所謂的JSF commandlink
如果你想分組他們,你需要聚類,而不是分類。 – michaeltwofish 2010-09-08 00:02:49