Q

Liblinear如何使用它

2011-05-24 77 views 4 likes

4

我在機器學習和文本挖掘方面相當新。它引起了我的注意，出現了一個名爲Liblinear的紅寶書庫https://github.com/tomz/liblinear-ruby-swig。Liblinear如何使用它

我到目前爲止想做的事情是訓練軟件，以確定文本是否提及任何與自行車相關的事情。

有人可以強調我應該遵循的步驟（即：預處理文本和如何），共享資源，理想情況下共享一個簡單的示例讓我走。

任何幫助將做，謝謝！

2011-05-24 mabounassif

A

回答

2

最經典的方法是：

收集輸入文本的有代表性的樣品，每一個標記爲相關/無關。
將樣本分成訓練集和測試集。
提取培訓集所有文檔中的所有術語;稱之爲詞彙表，V。
對於訓練集中的每個文檔，將其轉換爲布爾值的矢量，其中'th元素爲真/ 1，如果該詞彙表中的詞語出現在文檔中。
將矢量化訓練集提供給學習算法。

現在，要對文檔進行分類，請按照步驟4對其進行分類，並將其饋送到分類器以獲取相關/不相關的標籤。將它與實際標籤進行比較，看它是否正確。用這種簡單的方法你應該能夠獲得至少80％的準確度。

要改進此方法，請使用文檔長度規範化的術語計數替換布爾值，或者更好的方法是將tf-idf分數更正。

2011-05-24 21:01:06

+0

謝謝你，雖然我希望能有一個更實用的例子來說明如何預處理文檔... – mabounassif 2011-05-24 23:30:43

相關問題