我認爲你應該嘗試Natural Language Understanding服務。這裏是一個演示,可以讓你分析文本和提取概念和關鍵字https://natural-language-understanding-demo.mybluemix.net/。
我建議你先到read the documentation,然後看看API Reference,你會發現如何調用這個方法來提取基於不同語言的關鍵字和概念。
你需要做的是循環瀏覽你的文件,讀取內容然後發送給NLU。
下面是如何分析的文本中提取概念和關鍵字Node.js的一個例子:
const NaturalLanguageUnderstandingV1 = require('watson-developer-cloud/natural-language-understanding/v1.js');
const service = new NaturalLanguageUnderstandingV1({
'username': '{username}',
'password': '{password}',
'version_date': '2017-02-27'
});
const parameters = {
text: 'IBM is an American multinational technology company headquartered in Armonk, New York, United States, with operations in over 170 countries.',
features: {
keywords: {
emotion: true,
sentiment: true,
limit: 2
},
concepts: {
limit: 3
}
}
}
service.analyze(parameters, (err, response) => {
if (err)
console.log('error:', err);
else
console.log(JSON.stringify(response, null, 2));
});
我同意NLU將是首選。根據文件NLU不接受文件。只是原始文本,HTML和網址。這是一個小問題,因爲我想分析超過200個文檔。 – RileyZ71
我已經更新了我的答案,提供了更多信息和代碼片段,以便您在Node.js中執行什麼操作 –