'edit sample ID in vcf file using sed command
I have a vcf file in which ID is represented like this:
GTEX-1117F_GTEX-1117F
I want to edit the ID to look like: only
GTEX-1117F
and exclude other part of the ID for all GTEX values.
Id GTEX-1117F_GTEX-1117F GTEX-111CU_GTEX-111CU GTEX-111FC_GTEX-111FC GTEX-111VG_GTEX-111VG GTEX-111YS_GTEX-111YS GTEX-1122O_GTEX-1122O GTEX-1128S_GTEX-1128S GTEX-113IC_GTEX-113IC
I tried to use this command:
sed -e '$s/\[[[:digit:]]\+\]//g; s/_GTEX[[:digit:]]\+//g' genotype_chr22_filtered_dosage2.txt > genotype_chr22_filtered_dosage3.txt
This is how my file looks like:
Id GTEX-1117F_GTEX-1117F GTEX-111CU_GTEX-111CU GTEX-111FC_GTEX-111FC GTEX-111VG_GTEX-111VG GTEX-111YS_GTEX-111YS GTEX-1122O_GTEX-1122O GTEX-
1128S_GTEX-1128S GTEX-113IC_GTEX-113IC GTEX-113JC_GTEX-113JC GTEX-117XS_GTEX-117XS GTEX-117YW_GTEX-117YW GTEX-117YX_GTEX-117YX GTEX-1192W_GTEX-11
92W GTEX-1192X_GTEX-1192X GTEX-11DXW_GTEX-11DXW GTEX-11DXX_GTEX-11DXX GTEX-11DXY_GTEX-11DXY GTEX-11DXZ_GTEX-11DXZ GTEX-11DYG_GTEX-11DYG GTEX-11
DZ1_GTEX-11DZ1 GTEX-11EI6_GTEX-11EI6 GTEX-11EM3_GTEX-11EM3 GTEX-11EMC_GTEX-11EMC GTEX-11EQ8_GTEX-11EQ8 GTEX-11EQ9_GTEX-11EQ9
GTEX-ZVZP_GTEX-ZVZP GTEX-ZVZQ_GTEX-ZVZQ GTEX-ZWKS_GTEX-ZWKS GTEX-ZXES_GTEX-ZXES GTEX-ZXG5_GTEX-ZXG5 GTEX-ZY6K_GTEX-ZY6K GTEX-ZYFC_GTEX-ZYFC GTEX-ZYFD_GTEX-ZYFD GTEX-ZYFG_GTEX-ZYFG GTEX-ZYT6_GTEX-ZYT6 GTEX-ZYVF_GTEX-ZYVF GTEX-ZYW4_GTEX-ZYW4 GTEX-ZYWO_GTEX-ZYWO
GTEX-ZYY3_GTEX-ZYY3 GTEX-ZZ64_GTEX-ZZ64 GTEX-ZZPT_GTEX-ZZPT GTEX-ZZPU_GTEX-ZZPU
22_20000146_G_A_b37 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0
Sources
This article follows the attribution requirements of Stack Overflow and is licensed under CC BY-SA 3.0.
Source: Stack Overflow
| Solution | Source |
|---|
