我有一個計算機科學相關文檔的語料庫。我想提取特定於域的關鍵字。例如JAVA,C#,HTML,OOP,UML,Unity等。我一直在尋找類似牛津詞典的來源來計算,但是他們的API尚未運行。我也嘗試過使用Webopedia進行計算機科學術語的研究,但這並不是包含性和更新性的(例如,它不包括我的文檔中的某些單詞,例如F#),或者維基百科的所有術語都未列在一起。是否有更具包容性的來源或合適的方法來提取這些關鍵字?我正在使用Python和NLTK。例如,tf-idf沒有幫助,因爲某些特定領域的詞幾乎在所有文檔中都很常見,因此這些詞不會得到較高的評分。我認爲如果我可以使用POS標記會很有幫助,但我不確定哪個選項對我的應用程序最好。就拿串下面是一個例子:
「在JavaScript,JSON和AJAX專家級能力和JavaScript框架,如jQuery 有深入的瞭解「 在這裏我要提取這些話:‘JavaScript的’, 'JSON','AJAX','Frameworks','JQuery'],但是當我使用NLTK的POS標記搜索名詞時,我會得到'級別','能力','知識'...。 感謝您的幫助。
招聘數據庫? –
「所有必要的概念和技巧」 - D3,three.js或F#如何「必要」? – user2357112
我不知道爲什麼這個問題被拒絕投票。 @ user2357112你可能知道,知道諸如F#之類的語言,API和庫在任何時候都被列爲工作發佈的技能,所以我不確定在我的問題中有什麼讓你感到困惑。 – Mina