我不太確定如何說出這一點,如果格式不正確,我很抱歉,但我正試圖獲得一個基礎來解決這個問題。個人項目的最佳數據分析技巧/模型
我試圖建立一個預測算法的一組「髖關節手術的患者」,看起來像的數據:
Readmission Time | Symptom Code | Symptom Note | Related
6 | 2334 | swelling in hip | Yes
12 | 1324 | anxiety | Maybe
8 | 2334 | swelling in hip | Yes
30 | 1111 | Headaches | No
3 | 7934 | easily bruising | Yes
對於背景下,醫生可以識別一個給定的「症狀代碼」是否是與X天前發生的「髖關節置換手術」有關。我的數據集中有大約200個符合此格式的條目,我的目標是能夠匹配給定集合中的結果,並根據以下內容預測「相關」列中的新結果(具有關於預測結果的確定性統計信息)新的投入。例如,給定:
Input: 20 | 2334 | swelling in hip
Output: Yes (90% confidence)
我很新的數據分析和機器學習,所以我真的只是想獲得某種東西的指針來查找或從哪裏得到我的研究開始。我想有一個最佳的功能/模型可以處理這個最好的問題,但正如我所說我對這個主題非常陌生,所以我不知道從哪裏開始。由於我有一個相對較小的數據集,我正在尋找一種技術,如果可能的話,這種技術不容易超過訓練。
我真的很感謝任何幫助和指導從何入手。
哇,非常感謝!這很棒。我無法找到資源,所以我非常感謝。我會看看所有這些,並希望得到一個地方。我可以獲得更多數據,但只能分階段進行。我會有一位顧問會通過我的結果說這個結果是對/錯的,然後我將這些信息提供給我的模型,然後重新啓動一組新的150-200個條目。 – user2109258