2012-08-01 110 views
3

我被困在一個決定之上,對我得到的數據集應用分類或聚類。我越想它,我就越困惑。這就是我遇到的問題。聚類或分類?

我收到了包含有關公司,投資,股票,經濟,季度收入等新聞的新聞文件(大約3000,並不斷增加)。我的目標是將新聞排序,以便我知道哪些新聞對應於哪家公司。例如對於新聞項目「Apple推出新iPhone」,我需要將Apple公司與它聯繫起來。一個特定的新聞項目/文件只包含'標題'和'描述',所以我必須分析這些文字才能找出新聞反映的公司。它也可能是多家公司。

爲了解決這個問題,我轉向了Mahout。

我從集羣開始。我希望在我的集羣中獲得'蘋果','谷歌','英特爾'等頂級詞彙,從那裏我會知道集羣中的消息與其集羣標籤相對應,但情況有點不同。我有'投資','股票','通信','綠色能源','終端','股份','街道','奧林匹克'和許多其他條款作爲頂級的(這是有道理的集羣算法'尋找常用術語)。雖然有一些'蘋果'的集羣,但與它相關的新聞項目是非常少的。我認爲可能是聚類不是這種問題,因爲許多公司新聞進入更普遍的集羣(投資,利潤),而不是特定公司集羣(Apple)。

我開始閱讀關於需要訓練數據的分類,這個名字也令人信服,因爲我實際上想將我的新聞項目分類爲「公司名稱」。在我閱讀時,我的印象是名稱分類有點欺騙,與分類相比,該技術更多地用於預測目的。我得到的其他困惑是如何準備新聞文件的培訓數據?讓我們假設我有一份我感興趣的公司名單。我編寫了一個程序來爲分類器生成訓練數據。該計劃將查看新聞標題或說明是否包含公司名稱「Apple」,然後是其關於蘋果的新聞報道。我是如何準備訓練數據的?(當然,我讀過訓練數據實際上是一組預測變量和目標變量)。如果是這樣,那麼爲什麼我應該首先使用mahout分類?我應該溝通mahout,而不是使用我爲培訓數據編寫的這個小程序(實際上是分類)

您可以看到我對如何解決此問題感到困惑。另一件令我擔憂的事情是,如果有可能使這個系統變得如此聰明,那麼如果消息稱'iphone銷量創新高'而不使用'Apple'這個詞,那麼系統可以將其分類爲與蘋果相關的新聞?

非常感謝您指引我朝着正確的方向前進。

回答

3

複製從郵件列表我的回覆:

量詞是監督學習算法,所以你需要提供 一堆的積極和消極類的例子。在你的榜樣, 這將是罰款標記一堆文章爲「蘋果」與否, 然後使用從TF-IDF導出輸入特徵向量,這些 標籤,訓練分類,它可以告訴當文章是「關於 蘋果」。

我不認爲它會非常努力,自動生成 培訓通過根據簡單的規則設置標籤,它是 蘋果,如果「蘋果」是的稱號。那麼,如果你這樣做,那麼 就沒有必要培訓一個分類器。您可以製作一個微不足道的 分類器,該分類器只需在 檢查「Apple」是否在標題中即可在測試集上達到100%的準確度!是的,你是對的,這沒什麼收穫 。

很明顯,你想從分類器中學到一些更細微的東西,所以 標題爲「蘋果汁顯示降低癡呆風險」 沒有分類爲公司。你真的需要餵它 手分類文件。

這是一個壞消息,但是,您肯定可以通過這種方式爲N個主題訓練N個分類器 。

分類器把項目放入一個類或不是。它們與預測輸入的連續值的迴歸技術不同。 他們是相關的,但不同。

聚類具有無監督的優勢。你不需要 標籤。然而,由此產生的集羣不能保證匹配 您的文章主題的概念。您可能會看到一個集羣有很多蘋果文章 ,一些關於iPod,但也有一些關於三星 和一般筆記本電腦。我不認爲這是您的 問題的最佳工具。

1

首先,你不需要Mahout。 3000文件幾乎沒有。當你達到百萬時,重新回到Mahout。我已經在一臺計算機上處​​理了100.000張圖片,因此您現在可以真正跳過Mahout的開銷。

你正在嘗試做什麼聽起來像分類給我。因爲你有預定義的類。

聚類算法是無監督的。它(除非你overfit的參數)可能會打破蘋果「iPad/iPhone」和「Macbook」。另一方面,它可能會合並蘋果和谷歌,因爲它們與相關的(遠遠超過蘋果和福特等)。

是的,你需要訓練數據,它反映了你想測量的結構。還有其他的結構(例如iPhone與Macbook不同,Google,Facebook和Apple與凱洛格斯,福特和蘋果公司相比是更類似的公司)。如果你想要一個公司的級別的結構,你需要這個級別的細節的培訓數據。