我試圖從新聞網站提取主體內容&博客。Google Cloud Natural Language API實際上是否支持解析HTML?
該文檔使它看起來好像documents.analyzeSyntax
將通過與content
傳遞一個document
作爲頁面的原始HTML(UTF-8)和文檔的type
設置爲HTML
與HTML正常工作。文檔絕對包含HTML作爲支持的內容類型。
然而,實際上,生成的句子和標記與HTML標籤混雜在一起,就好像分析器認爲輸入是純文本一樣。就目前而言,這爲我的用例排除了GC NL API,推測很多其他人通過自然語言處理網頁是一項非常普遍的任務。
作爲參考,這裏是一個example由Dandelion API輸出類型的人會期望給定的HTML輸入(或者更確切地說,在這種情況下,一個HTML頁面的URL作爲輸入)。
那麼我的問題是我錯過了什麼,可能是錯誤地調用了API,還是NL API不支持HTML?