可以將網站列表視爲特定類別的語料庫嗎？

-1

我正在嘗試爲特定類別構建我自己的語料庫，如工程，商業，數學，科學等......這將用於自動網頁分類。比方說，我手動收集100個與數學相關的網站。這100個網站可以被認爲是數學的語料庫嗎？可以將網站列表視爲特定類別的語料庫嗎？

另一個相關的問題。這與一個詞彙有什麼區別呢，而不是一個網站列表，它顯示了一個帶有權重的單詞列表，例如0或1到特定的類別？例如，情感詞典中包含正面和負面權重的詞彙。但不是正面和負面，而是使用諸如數學，科學等類別。

2017-07-25 John

一個語料庫只是一個數據集合。然後，您的100個數學網站可以被視爲您的語料庫的子樣本，對應於標籤「數學」（如果您正在進行監督式學習）。 – debzsud

@debzsud哦，現在我明白了。那麼從詞典中會有什麼不同呢？我編輯了這個問題。 – John

我希望通過收集你的意思是這些網站的內容，而不僅僅是網址？很難僅通過網址對網站進行分類。如果是內容，那麼這個任務與帶有文本的文檔沒有什麼不同。 – CrazyElf

你說你想做一些網頁分類，那麼你面臨的問題是監督學習問題。你得到的數據是網頁，所以我猜你實際上是以文本的形式提取他們的內容。您使用文本輸入數據。由於您想對它們進行分類，因此您的每個輸入數據都有一個或多個相應的標籤，這是您要預測的輸出。您有多個標籤，所以你想要做多標籤分類

爲了解決這個問題，因爲大多數的機器學習算法和數值向量工作，你需要對文章的你文集轉化爲向量（或進入一個矩陣）。爲此，您可以使用首先構建字典或詞典的技術，然後計算字典在每個文本中出現的每個詞。實際上，您可以用相同的方式轉換您的輸出標籤，將每個類別的輸出矢量的索引歸於此。

最後管道將是這樣的：

[INPUT_TEXT] --bag_of_word - > [input_vector] --prediction - > [output_vector] --label_matchnig - > [標籤]

2017-07-25 11:45:09 debzsud

謝謝你的詳細解答。我可以使用TF-IDF構建字典或詞典，而不是隻計算出現的次數？ – John

你可以試試TF-IDF，有時候它很有用，有時候不是。 – CrazyElf

是的，tf-idf是將文本表示爲向量的下一步。您還擁有LSA，LDA，單詞嵌入和更復雜的深度學習模型。 – debzsud

回答