2011-05-24 77 views
4

我在機器學習和文本挖掘方面相當新。它引起了我的注意,出現了一個名爲Liblinear的紅寶書庫https://github.com/tomz/liblinear-ruby-swigLiblinear如何使用它

我到目前爲止想做的事情是訓練軟件,以確定文本是否提及任何與自行車相關的事情。

有人可以強調我應該遵循的步驟(即:預處理文本和如何),共享資源,理想情況下共享一個簡單的示例讓我走。

任何幫助將做,謝謝!

回答

2

最經典的方法是:

  1. 收集輸入文本的有代表性的樣品,每一個標記爲相關/無關。
  2. 將樣本分成訓練集和測試集。
  3. 提取培訓集所有文檔中的所有術語;稱之爲詞彙表,V
  4. 對於訓練集中的每個文檔,將其轉換爲布爾值的矢量,其中'th元素爲真/ 1,如果該詞彙表中的詞語出現在文檔中。
  5. 將矢量化訓練集提供給學習算法。

現在,要對文檔進行分類,請按照步驟4對其進行分類,並將其饋送到分類器以獲取相關/不相關的標籤。將它與實際標籤進行比較,看它是否正確。用這種簡單的方法你應該能夠獲得至少80%的準確度。

要改進此方法,請使用文檔長度規範化的術語計數替換布爾值,或者更好的方法是將tf-idf分數更正。

+0

謝謝你,雖然我希望能有一個更實用的例子來說明如何預處理文檔... – mabounassif 2011-05-24 23:30:43