我發現瞭解釋如何比較2個文檔以生成「貼近度」分數的算法。有沒有一種已知的算法可以用來讀取中等數量的HTML文檔(兩位到三位數字)並對它們進行分組?理想情況下,在源文檔的每個可能排列中不使用2輸入算法。將任意數量的HTML文檔分類爲主題的算法
我猜Google新聞必須使用類似這樣的東西。
只是爲了澄清,這裏有一個例子:
Input: 100 HTML documents
Output:
- 3 categories found:
* CategoryA: 30 documents
* CategoryB: 20 documents
* CategoryC: 5 documents
* Uncategorised: 45 documents
您需要更具體地瞭解您的分組標準。例如,我可以編寫按單詞數量分組文章的代碼,但我懷疑這就是你想要的。關於您的Google新聞示例,我想文章不會歸入單個類別。更有可能的是,多個標籤可以根據其內容分配給一篇文章,然後根據搜索標準,這些標籤可用於將文章混合並匹配到許多不同的分組中。 – mbeckish
我希望按主題分組的文章/文檔。我知道'主題'是模糊的,但這是計算算法難度的一部分。作爲一個人,這似乎很簡單,但很難解釋。對於一臺電腦,我想這應該是單詞,它們的順序和位置的組合。我也可以看到有人可以花費永恆的方式來解決這個問題,但是任何簡單的算法都可以幫助你。 Thx –
也許您可以使用[主題模型](https://en.wikipedia.org/wiki/Topic_model)[潛在Dirichlet分配](https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation)。 Saludos! – Enrique