我有一組書籍的對象,班組長書定義如下:Java的文本分類問題
Class Book{
String title;
ArrayList<tags> taglist;
}
凡冠軍是書的標題,例如:的Javascript傻瓜。
和標記列表是我們的示例的標籤列表:的Javascript,jQuery的,「網站開發」,...
正如我說的是有一個帳套談論不同的事情:IT,生物,歷史,... 每本書都有一個標題和描述它的一套標籤..
我不得不automaticaly那些書分爲分割出的主題,例如:
IT書籍:
- 的Java傻瓜
- 的Javascript傻瓜
- 學習Flash 30天
- C++編程
史書:
- 世界大戰
- 美國在1960年 本
- 馬丁·路德·金的生活
生物學書籍:
- ....
難道你們知道的分類算法/方法申請那樣的問題?
一種解決方案是使用外部API定義文本的範疇,但這裏的問題是,書是不同的語言:法語,西班牙語,英語..
是的,但有是書籍之間的一些共同標籤:( – Youssef 2010-05-12 19:03:43
相關問題:http://stackoverflow.com/questions/2781752/naive-bayesian-for-topic-detection-using-bag-of-words-approach/2783356#2783356 – dmcer 2010-05-12 19:26:41
不錯謝謝你(y) – Youssef 2010-05-12 21:22:47