2017-07-25 25 views
-1

我正在嘗試爲特定類別構建我自己的語料庫,如工程,商業,數學,科學等......這將用於自動網頁分類。比方說,我手動收集100個與數學相關的網站。這100個網站可以被認爲是數學的語料庫嗎?可以將網站列表視爲特定類別的語料庫嗎?

另一個相關的問題。這與一個詞彙有什麼區別呢,而不是一個網站列表,它顯示了一個帶有權重的單詞列表,例如0或1到特定的類別?例如,情感詞典中包含正面和負面權重的詞彙。但不是正面和負面,而是使用諸如數學,科學等類別。

+0

一個語料庫只是一個數據集合。然後,您的100個數學網站可以被視爲您的語料庫的子樣本,對應於標籤「數學」(如果您正在進行監督式學習)。 – debzsud

+0

@debzsud哦,現在我明白了。那麼從詞典中會有什麼不同呢?我編輯了這個問題。 – John

+0

我希望通過收集你的意思是這些網站的內容,而不僅僅是網址? 很難僅通過網址對網站進行分類。 如果是內容,那麼這個任務與帶有文本的文檔沒有什麼不同。 – CrazyElf

回答

1

你說你想做一些網頁分類,那麼你面臨的問題是監督學習問題。你得到的數據是網頁,所以我猜你實際上是以文本的形式提取他們的內容。您使用文本輸入數據。由於您想對它們進行分類,因此您的每個輸入數據都有一個或多個相應的標籤,這是您要預測的輸出。您有多個標籤,所以你想要做多標籤分類

爲了解決這個問題,因爲大多數的機器學習算法和數值向量工作,你需要對文章的你文集轉化爲向量(或進入一個矩陣)。爲此,您可以使用首先構建字典詞典的技術,然後計算字典在每個文本中出現的每個詞。實際上,您可以用相同的方式轉換您的輸出標籤,將每個類別的輸出矢量的索引歸於此。

最後管道將是這樣的:

[INPUT_TEXT] --bag_of_word - > [input_vector] --prediction - > [output_vector] --label_matchnig - > [標籤]

+0

謝謝你的詳細解答。我可以使用TF-IDF構建字典或詞典,而不是隻計算出現的次數? – John

+0

你可以試試TF-IDF,有時候它很有用,有時候不是。 – CrazyElf

+0

是的,tf-idf是將文本表示爲向量的下一步。您還擁有LSA,LDA,單詞嵌入和更復雜的深度學習模型。 – debzsud

相關問題