2012-06-25 34 views
2

我發現瞭解釋如何比較2個文檔以生成「貼近度」分數的算法。有沒有一種已知的算法可以用來讀取中等數量的HTML文檔(兩位到三位數字)並對它們進行分組?理想情況下,在源文檔的每個可能排列中不使用2輸入算法。將任意數量的HTML文檔分類爲主題的算法

我猜Google新聞必須使用類似這樣的東西。

只是爲了澄清,這裏有一個例子:

Input: 100 HTML documents 
Output: 
- 3 categories found: 
* CategoryA: 30 documents 
* CategoryB: 20 documents 
* CategoryC: 5 documents 
* Uncategorised: 45 documents 
+0

您需要更具體地瞭解您的分組標準。例如,我可以編寫按單詞數量分組文章的代碼,但我懷疑這就是你想要的。關於您的Google新聞示例,我想文章不會歸入單個類別。更有可能的是,多個標籤可以根據其內容分配給一篇文章,然後根據搜索標準,這些標籤可用於將文章混合並匹配到許多不同的分組中。 – mbeckish

+0

我希望按主題分組的文章/文檔。我知道'主題'是模糊的,但這是計算算法難度的一部分。作爲一個人,這似乎很簡單,但很難解釋。對於一臺電腦,我想這應該是單詞,它們的順序和位置的組合。我也可以看到有人可以花費永恆的方式來解決這個問題,但是任何簡單的算法都可以幫助你。 Thx –

+0

也許您可以使用[主題模型](https://en.wikipedia.org/wiki/Topic_model)[潛在Dirichlet分配](https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation)。 Saludos! – Enrique

回答

1

你應該看看算法的cluster analysis區域。您似乎在尋找一種非常廣泛的方法unsupervised learning,但是如果在搜索類別之前爲算法添加一些額外的輸入,則可以提高結果的質量。

您需要想出一個比較文件或至少列舉相關特徵(詞的長度,頻率等)的方法。這些可以作爲您正在使用的聚類算法的輸入。例如,你可以定義如下特點:

  • 字數
  • 數量的圖像
  • 數量的外部鏈接的相關生物學
  • 數量地理學
  • 字數的相關詞的
  • 與經濟相關的字數
  • et cetera

更具體的你是什麼類別你想要的,算法執行得越好。以上特點會給你號的向量爲每個文檔:

(384 , 12, 8, ..., 0) 
(1244, 39, 10, ..., 55) 
(128 , 2, 66, ..., 33) 
... 

聚類算法(如k-means clustering)現在可以幫助你在每個文檔分配給最有可能的集羣。請注意,這只是一個例子。針對您的特定問題,爲更具體的域(如醫療用品)定義更具體的特徵可能會有所幫助。

+0

沒有使用k-means,但'聚類'導致了正確的道路。接受。 –

相關問題