我正在與兩組數據工作集:搜索大的數據爲多個串
集1具有在單個列500個成員(所有字符串) 組2具有兩列(製表符分隔)其中30000個成員第1列是數字ID號,第2列是字符串分隔列表(10,000種可能性)。
我需要搜索第2集第2集中的字符串,並用至少1個匹配標記(或隔離)第2集中的所有行。點擊也需要非常具體(即,我想抓住「傑克有一個網球」,但不是「我喜歡傑克有一個網球袋」)。如果有幫助,我可以找出所有需要特別避免的字符串。我開始使用excel(「if(isnumber(search(」),但是發現嵌套的if語句的數量是有限的)我也使用grep獲得了一些成功,但是我意識到它是隔離的我特別需要避免的線條(「我喜歡傑克有一個網球球包」型線)。
我開始認爲Python是要走的路,但我不知道如何去。它的代碼在其他人有任何建議
這裏是集2(ID的僞造保護匿名)樣品給什麼我的工作有更好的瞭解:
1230 DEVELOPMENTAL DELAY, LANGUAGE DELAY, MOTOR DELAY
2257 MULTIPLE CONGENITAL ANOMALIES
2344 MICROCEPHALY, AUTISM SPECTRUM DISORDER, SHORT STATURE
3342 DEVELOPMENTAL DELAY, SEIZURE DISORDER, ATAXIA
7651 CONGENITAL ANOMALY, UNSPECIFIED
7869 FAMILY HISTORY OF AUTISM SPECTRUM DISORDER
在這種情況下,我會尋找術語「自閉症譜系障礙」,我想ID 2344,但不是ID 7869.
感謝您的幫助!
我一直希望在Excel中拼湊一些東西,因爲我是一個令人沮喪的編碼器,但這顯然是做到這一點的「正確」方式。非常感謝您花時間解釋這一切! – Ian