我被困在一個決定之上,對我得到的數據集應用分類或聚類。我越想它,我就越困惑。這就是我遇到的問題。聚類或分類?
我收到了包含有關公司,投資,股票,經濟,季度收入等新聞的新聞文件(大約3000,並不斷增加)。我的目標是將新聞排序,以便我知道哪些新聞對應於哪家公司。例如對於新聞項目「Apple推出新iPhone」,我需要將Apple公司與它聯繫起來。一個特定的新聞項目/文件只包含'標題'和'描述',所以我必須分析這些文字才能找出新聞反映的公司。它也可能是多家公司。
爲了解決這個問題,我轉向了Mahout。
我從集羣開始。我希望在我的集羣中獲得'蘋果','谷歌','英特爾'等頂級詞彙,從那裏我會知道集羣中的消息與其集羣標籤相對應,但情況有點不同。我有'投資','股票','通信','綠色能源','終端','股份','街道','奧林匹克'和許多其他條款作爲頂級的(這是有道理的集羣算法'尋找常用術語)。雖然有一些'蘋果'的集羣,但與它相關的新聞項目是非常少的。我認爲可能是聚類不是這種問題,因爲許多公司新聞進入更普遍的集羣(投資,利潤),而不是特定公司集羣(Apple)。
我開始閱讀關於需要訓練數據的分類,這個名字也令人信服,因爲我實際上想將我的新聞項目分類爲「公司名稱」。在我閱讀時,我的印象是名稱分類有點欺騙,與分類相比,該技術更多地用於預測目的。我得到的其他困惑是如何準備新聞文件的培訓數據?讓我們假設我有一份我感興趣的公司名單。我編寫了一個程序來爲分類器生成訓練數據。該計劃將查看新聞標題或說明是否包含公司名稱「Apple」,然後是其關於蘋果的新聞報道。我是如何準備訓練數據的?(當然,我讀過訓練數據實際上是一組預測變量和目標變量)。如果是這樣,那麼爲什麼我應該首先使用mahout分類?我應該溝通mahout,而不是使用我爲培訓數據編寫的這個小程序(實際上是分類)
您可以看到我對如何解決此問題感到困惑。另一件令我擔憂的事情是,如果有可能使這個系統變得如此聰明,那麼如果消息稱'iphone銷量創新高'而不使用'Apple'這個詞,那麼系統可以將其分類爲與蘋果相關的新聞?
非常感謝您指引我朝着正確的方向前進。