我精通Python,但在R完全新手。我無法找到這個問題的答案在其他地方在線,雖然它會有點冗長,但我希望它會對R庫RQDA的其他用戶有用。編碼矩陣與重疊計數在R
本質上,RQDA是一種定性研究工具,主要用於將代碼(主題)分配給文本文件。這有點像熒光筆,它可以算出它突出顯示的位置。
如果你輸入了大量的文件,你可以在不同的地方使用主題進行編碼(例如,一個關於採訪在布製造業工作的人可能是「設備」,「縫紉」,「亞麻」,「絲綢「,」照明「,」午餐休息時間「等)。這使您可以算多少次不同的代碼中使用,並在RQDA它給出了一個表格輸出如下:
rowid cid fid codenamefilename index1 index2 CodingLength
1 1 12 1 silk 2010-01-28 409 939 530
2 2 21 1 cotton 2010-01-28 1008 1172 164
3 3 12 1 silk 2010-01-28 1173 1924 751
4 4 39 1 sewing 2010-01-28 1008 1250 751
5 5 38 1 weaving 2010-01-28 1173 1924 751
6 6 78 1 costs 2010-01-28 727 939 212
7 7 23 1 lunch 2010-01-28 1553 1788 235
8 9 7 2 lunch 2010-01-29 1001 1230 371
9 10 4 2 weaving 2010-01-29 1547 1724 135
10 11 6 2 social 2010-01-29 1001 1290 350
11 12 7 2 silk 2010-01-29 1926 2276 350
12 14 17 2 supply 2010-01-29 1926 2276 350
13 15 78 2 costs 2010-01-29 1926 2276 350
14 17 78 2 weaving 2010-01-29 1890 2106 212
代號=代碼文曾(主題)
文件名=文字的文件名(在這種情況下,日記的日期)在文件
index1之間=字符位置代碼開始(突出顯示的文本)
索引2 =字符位置在檔案中,其中代碼端(突出顯示的文本)
CodingLength =的編碼全長/突出顯示的文本
我想要做的是在整個表(約1500行)與代碼在上述表中的總列表(代號迭代,大約100唯一代碼),以輸出代碼之間的重疊的2路矩陣,例如(只表示,5碼):
silk cotton sewing weaving lunch breaks socialising
silk * 0 0 3 2 0
cotton 0 * 5 0 0 0
sewing 0 5 * 0 0 0
weaving 3 0 0 * 0 0
lunchs 2 0 0 0 * 5
socialg 0 0 0 0 5 *
(代碼搞砸了一下這個輸出,但希望你的想法)
因此,在RI中需要一些代碼來迭代代碼列表和國家代碼t A)文件名相同且B)index1和index2之間的範圍有重疊(CodingLength可能不重要)的情況的數量。
我可能需要ASIGN表作爲變量如:
從以下模糊的預感,我失去了,究竟如何使這項工作除了
coding_table < - getCodingTable( )
我可能需要做的唯一變量的列表,例如:
X = C( 「絲」, 「棉」,」編織」,‘縫紉’,‘午餐’......等)
我需要做的檢查
- 的功能,我需要一個for循環的行
- 我需要一個布爾測試範圍和文件名被檢查,例如所有(409:在%727 939%:939)& &名==名
在此基礎上,任何人都可以看到的方式來產生一個非常短的解決方案呢?我覺得python中的等價物最多隻有10行,但考慮到R所需的額外位數,我完全喪失瞭如何做到這一點。
NB如果有人可以創建標籤'RQDA',我會這樣標記。 – joep1