'Group lines with same ID
I am trying to perform a grouping by ID of each line, however my understanding of the group_by function must be limited, as it seems not to work as I expect it to.
Here is a MWE, for the data (saved as levantamento.csv):
pid,all_t1,all_t2,eat_t1,eat_t2,dm_t2,hd_t2,mig_t2,epi_t2,adhd_t1,adhd_t2
146966400,579,792,1583,NA,NA,NA,NA,NA,NA,NA
253440300,1492,2588,NA,5145,NA,NA,NA,NA,NA,NA
250135300,2830,122,NA,NA,3957,NA,NA,NA,NA,NA
253440300,1492,2588,NA,NA,NA,5145,NA,NA,NA,NA
253440300,1492,2588,NA,NA,NA,NA,4049,NA,NA,NA
253440300,1492,2588,NA,NA,NA,NA,NA,5145,NA,NA
261505300,3226,3957,NA,NA,NA,NA,NA,2861,NA,NA
138156300,1706,1096,NA,NA,NA,NA,NA,NA,731,NA
252145300,4414,4414,NA,NA,NA,NA,NA,NA,3319,NA
254666300,3042,3042,NA,NA,NA,NA,NA,NA,3042,NA
257100400,365,365,NA,NA,NA,NA,NA,NA,365,NA
261505300,3226,3957,NA,NA,NA,NA,NA,NA,2861,NA
252145300,4414,4414,NA,NA,NA,NA,NA,NA,NA,3319
254666300,3042,3042,NA,NA,NA,NA,NA,NA,NA,3042
257100400,365,365,NA,NA,NA,NA,NA,NA,NA,365
261505300,3226,3957,NA,NA,NA,NA,NA,NA,NA,2861
I want the repeated values to be aggregated and keep the adhd_t1 and adhd_t2 per line:
pid all_t1 all_t2 eat_t1 eat_t2 dm_t2 hd_t2 mig_t2 epi_t2 adhd_t1 adhd_t2
9 252145300 4414 4414 NA NA NA NA NA NA 3319 3319
10 254666300 3042 3042 NA NA NA NA NA NA 3042 3042
11 257100400 365 365 NA NA NA NA NA NA 365 365
12 261505300 3226 3957 NA NA NA NA NA NA 2861 2861
But when I run:
read_csv("levantamento.csv") %>% group_by(pid, adhd_t1, adhd_t2)
I get:
pid all_t1 all_t2 eat_t1 eat_t2 dm_t2 hd_t2 mig_t2 epi_t2 adhd_t1 adhd_t2
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 146966400 579 792 1583 NA NA NA NA NA NA NA
2 253440300 1492 2588 NA 5145 NA NA NA NA NA NA
3 250135300 2830 122 NA NA 3957 NA NA NA NA NA
4 253440300 1492 2588 NA NA NA 5145 NA NA NA NA
5 253440300 1492 2588 NA NA NA NA 4049 NA NA NA
6 253440300 1492 2588 NA NA NA NA NA 5145 NA NA
7 261505300 3226 3957 NA NA NA NA NA 2861 NA NA
8 138156300 1706 1096 NA NA NA NA NA NA 731 NA
9 252145300 4414 4414 NA NA NA NA NA NA 3319 NA
10 254666300 3042 3042 NA NA NA NA NA NA 3042 NA
11 257100400 365 365 NA NA NA NA NA NA 365 NA
12 261505300 3226 3957 NA NA NA NA NA NA 2861 NA
13 252145300 4414 4414 NA NA NA NA NA NA NA 3319
14 254666300 3042 3042 NA NA NA NA NA NA NA 3042
15 257100400 365 365 NA NA NA NA NA NA NA 365
16 261505300 3226 3957 NA NA NA NA NA NA NA 2861
- What am I doing wrong?
Sources
This article follows the attribution requirements of Stack Overflow and is licensed under CC BY-SA 3.0.
Source: Stack Overflow
| Solution | Source |
|---|
