2013-12-16 24 views
1

我正在研究與我感興趣的主題相關的網頁的二進制分類。我想分類網頁是否屬於某個類別。我手動標記了2個類別positivenegative的數據集。但是,我擔心的是,當我從每個類別中查看詞袋時,其功能非常相似。 positivenegative網頁確實非常接近(內容明智)。網頁的二進制分類,其中類別中的數據非常相似

一些更多的信息 - 內容是英文,我們也正在做停用詞刪除。

我該怎麼去做這件事?有沒有可以應用於這個問題的不同方法? 謝謝!

+1

你能想到任何其他功能,將它們分開?你把他們放在每個類別中的個人標準是什麼?學習算法可能能夠在狹窄分離的情況下「成功」,但您可能會有許多誤報和否定。 – aganders3

+0

這就是我現在得到的..很多誤報。這些網頁被專家放入每個類別,但主要基於他們是否談論某個話題。就我而言,負面的網頁大多是轉發網頁到正面的網頁。我正在深入挖掘,找出還有什麼可以分開這兩個類別。 – y2p

+0

此外,我正在刮頁面限於我的興趣的話題,這已經限制了相當多的噪音 – y2p

回答

1

您可以使用成對的連續單詞而不是單個單詞(袋的單詞對)。希望這對單詞可以更好地捕捉到你後面的概念。接下來可能會出現三個字。問題在於維度非常高(N^2)。如果你買不起它,一個想法就是使用散列技巧(檢查關於隨機投影/散列的文獻)來限制維度上的單詞對。

相關問題