1
我正在研究與我感興趣的主題相關的網頁的二進制分類。我想分類網頁是否屬於某個類別。我手動標記了2個類別positive
和negative
的數據集。但是,我擔心的是,當我從每個類別中查看詞袋時,其功能非常相似。 positive
和negative
網頁確實非常接近(內容明智)。網頁的二進制分類,其中類別中的數據非常相似
一些更多的信息 - 內容是英文,我們也正在做停用詞刪除。
我該怎麼去做這件事?有沒有可以應用於這個問題的不同方法? 謝謝!
你能想到任何其他功能,將它們分開?你把他們放在每個類別中的個人標準是什麼?學習算法可能能夠在狹窄分離的情況下「成功」,但您可能會有許多誤報和否定。 – aganders3
這就是我現在得到的..很多誤報。這些網頁被專家放入每個類別,但主要基於他們是否談論某個話題。就我而言,負面的網頁大多是轉發網頁到正面的網頁。我正在深入挖掘,找出還有什麼可以分開這兩個類別。 – y2p
此外,我正在刮頁面限於我的興趣的話題,這已經限制了相當多的噪音 – y2p