0
我有興趣從網頁和其他目前沒有語義意識的源中提取語義數據(簡單模板內容)。我以前使用一堆不同的語言編寫了爬網程序和手動解析器,但似乎總是有很多樣板和頁面特定的代碼,並且想知道您是否知道簡化過程的任何平臺或框架(開源只有請)。從網頁中提取語義數據
我會寫一個,如果我找不到一個,所以鏈接到類似的系統或框架建議也將不勝感激。
我有興趣從網頁和其他目前沒有語義意識的源中提取語義數據(簡單模板內容)。我以前使用一堆不同的語言編寫了爬網程序和手動解析器,但似乎總是有很多樣板和頁面特定的代碼,並且想知道您是否知道簡化過程的任何平臺或框架(開源只有請)。從網頁中提取語義數據
我會寫一個,如果我找不到一個,所以鏈接到類似的系統或框架建議也將不勝感激。
該領域被稱爲「自動包裝提取」,是一個活躍的研究領域,但我還沒有看到一個好的開源工具包。一家名爲lixto的公司製作了一個您可能感興趣的商業工具。我很想看到一個解決這個問題的開源項目。