2016-01-20 63 views
-1

我需要在網頁中查找文本的語義。 即發現網頁內容是否是一首詩,談話或散文等等 我可以感覺到這可以通過機器學習和自然語言處理完成。如果有人能夠提供有關可以遵循的技術的更多信息以及參考某些研究論文,將會有所幫助。查找網頁內容的語義

回答

1

我會看看線條/句子的長度。它們被證明對於這樣的分類任務來說是相當有用的特徵。

如果您有權訪問足夠多的標籤文本,可以通過提取特徵(詞的數量,每行和每句的平均詞數,總長度等)來訓練分類器(例如,決策樹或隨機森林)。 )並讓分類算法完成剩下的工作。