2017-09-14 93 views
0

我想使用谷歌自然API來分析新聞內容給它的HTML地址,使用的API的功能之一,我的代碼如下:谷歌雲自然語言API用法 - 分析HTML情緒

from google.cloud import language 
def sentiment(HTML): 
    client=language.Client() 
    document=client.document_from_html(HTML) 
    sent_analysis=document.analyze_sentiment() 
    senti = sent_analysis.sentiment 
    print ('Score',senti.score,'Magnitude',senti.magnitude) 

if __name__ == '__main__': 
    senti=sentiment('http://www.marketwatch.com/story/amazon-adding-1000-full-time-jobs-with-michigan-fulfillment-center-2017-09-14?siteid=yhoof2&yptr=yahoo') 

結果總是0,無論我傳入哪些新聞頁面,它似乎都沒有做任何事情。我如何使用它有什麼問題?

回答

0

你實際分類的是網址,而不是其內容。該HTML內容類型意味着它會剝去任何格式存在於文本,所以如果你有這樣的:

<h1>HTML Ipsum Presents</h1> 

<p><strong>Pellentesque habitant morbi tristique</strong> senectus et netus et malesuada fames ac turpis egestas. Vestibulum tortor quam, feugiat vitae, ultricies eget, tempor sit amet, ante. Donec eu libero sit amet quam egestas semper. <em>Aenean ultricies mi vitae est.</em> Mauris placerat eleifend leo. Quisque sit amet est et sapien ullamcorper pharetra. Vestibulum erat wisi, condimentum sed, <code>commodo vitae</code>, ornare sit amet, wisi. Aenean fermentum, elit eget tincidunt condimentum, eros ipsum rutrum orci, sagittis tempus lacus enim ac dui. <a href="#">Donec non enim</a> in turpis pulvinar facilisis. Ut felis.</p> 

它會刪除所有的HTML標籤。

的一篇文章中的內容進行分類,你需要先取水的時候,是這樣的:

import requests 
req = requests.get('http://www.marketwatch.com/story/amazon-adding-1000-full-time-jobs-with-michigan-fulfillment-center-2017-09-14?siteid=yhoof2&yptr=yahoo') 
html = req.text 

現在,這將讓整個HTML文件,其中包含各種其他的廢話除了文章,像<head>。我不確定語言api在去除這個問題上有多好。