我正在嘗試爲特定類別構建我自己的語料庫,如工程,商業,數學,科學等......這將用於自動網頁分類。比方說,我手動收集100個與數學相關的網站。這100個網站可以被認爲是數學的語料庫嗎?可以將網站列表視爲特定類別的語料庫嗎?
另一個相關的問題。這與一個詞彙有什麼區別呢,而不是一個網站列表,它顯示了一個帶有權重的單詞列表,例如0或1到特定的類別?例如,情感詞典中包含正面和負面權重的詞彙。但不是正面和負面,而是使用諸如數學,科學等類別。
我正在嘗試爲特定類別構建我自己的語料庫,如工程,商業,數學,科學等......這將用於自動網頁分類。比方說,我手動收集100個與數學相關的網站。這100個網站可以被認爲是數學的語料庫嗎?可以將網站列表視爲特定類別的語料庫嗎?
另一個相關的問題。這與一個詞彙有什麼區別呢,而不是一個網站列表,它顯示了一個帶有權重的單詞列表,例如0或1到特定的類別?例如,情感詞典中包含正面和負面權重的詞彙。但不是正面和負面,而是使用諸如數學,科學等類別。
你說你想做一些網頁分類,那麼你面臨的問題是監督學習問題。你得到的數據是網頁,所以我猜你實際上是以文本的形式提取他們的內容。您使用文本輸入數據。由於您想對它們進行分類,因此您的每個輸入數據都有一個或多個相應的標籤,這是您要預測的輸出。您有多個標籤,所以你想要做多標籤分類
爲了解決這個問題,因爲大多數的機器學習算法和數值向量工作,你需要對文章的你文集轉化爲向量(或進入一個矩陣)。爲此,您可以使用首先構建字典或詞典的技術,然後計算字典在每個文本中出現的每個詞。實際上,您可以用相同的方式轉換您的輸出標籤,將每個類別的輸出矢量的索引歸於此。
最後管道將是這樣的:
[INPUT_TEXT] --bag_of_word - > [input_vector] --prediction - > [output_vector] --label_matchnig - > [標籤]
一個語料庫只是一個數據集合。然後,您的100個數學網站可以被視爲您的語料庫的子樣本,對應於標籤「數學」(如果您正在進行監督式學習)。 – debzsud
@debzsud哦,現在我明白了。那麼從詞典中會有什麼不同呢?我編輯了這個問題。 – John
我希望通過收集你的意思是這些網站的內容,而不僅僅是網址? 很難僅通過網址對網站進行分類。 如果是內容,那麼這個任務與帶有文本的文檔沒有什麼不同。 – CrazyElf