2015-05-15 28 views
-3

我正在完成一篇關於健康經濟學的論文,並希望探索使用算法來回答在我的研究期間手動填寫的清單的可能性。編寫一個算法來完成一個清單,從哪裏開始?

清單是一個24項檢查清單,詢問「是否報告折扣率?」等問題。現在,我一直在審查的文章往往是非常規範化的。也就是說,他們報告答案的方式只有幾種(例如「我們在此評估中折扣爲3%」)。

理論上,我認爲可以編寫一個程序來搜索文本並填寫大部分這些清單項目。但是,我在編程方面的經驗很少。就我所知,像這樣的程序將涉及編寫一個排序算法,但那是我的知識結束的地方。

特別是,我想知道 - 這可能嗎? - 如果是這樣,我將如何進一步探索這個問題?理想情況下,我希望能夠通過編寫一個算法來查看我的數據庫。

+1

所以你想要一個程序「閱讀」和解析文本? [*自然語言處理*](http://en.wikipedia.org/wiki/Natural_language_processing)(或簡稱爲* NLP *)是一個非常複雜的過程,但有些庫可以幫助您。還要記住[* OCR *](http://en.wikipedia.org/wiki/Optical_character_recognition)並不完美。 –

+0

在世界上,每個人在每個方面都與別人不同,我們不能100%地回答他們在同一個問題上的答案。那麼,你可以嘗試做一些類似AI的事情,根據一定的條件做基本的預測。 –

回答

0

這絕對可以通過簡單的邏輯和解析來完成,但關鍵在於手工條目在「編碼」方式上是一致的。

例如,您將解析您的行以獲取特定標記(或驗證字)。

你的情況,你上面可以解析一個字一個字的字符串:

代碼明智的,我們可以實現一個基本的邏輯比較在解析每個單詞「我們本次評測的折扣在3%」串。

if(currentWord is equal to "discounted") 
    create a checkmark. 
+0

此外,您可以創建符合驗證器的單詞字典。然後從那裏你可以比較每一個被解析的單詞與字典中的所有單詞。 以下是您的問題:您的數據庫目前處於什麼狀態? Doc表單?分號分隔的列表? Excel中?訪問? – ejsd1989

+0

我的數據庫目前在excel中,但是Excel電子表格中包含的信息來自已發佈的文章,通常是pdf格式。從粗略閱讀看,似乎pdfs是一個討厭的工作,所以我需要將其提取到文本。 –

+0

在這種情況下,我強烈建議尋找Excel VBA(很多優秀的教程!) 如果文章將信息清理乾淨地放在文本中,那麼您可以通過某種方式提取信息的軟件轉換爲逗號分隔的格式,以便讀入excel。看看科技像:http://tabula.technology/或類似... – ejsd1989

相關問題