Question

cBioPortalData loads empty z-score expression table

0

Entering edit mode

Astrid Deschênes • 0

@astrid-deschenes-12182

Last seen 4 months ago

USA/Cold Spring Harbor Laboratory

Hi,

The following code used to work until yesterday evening (March 20th 2024).

The code downloads the PAAD TCGA data and extracts the z-score expression table.

Now, the loaded z-score expression table is filled with NA. There are also warnings during the download.

Has something changed in the way I should load this table?

Many thanks, Astrid


suppressPackageStartupMessages({
    cbio <- cBioPortal()
    paad <- cBioDataPack("paad_tcga", ask = FALSE)
})
Downloading study file: paad_tcga.tar.gz
  |================================================================================================| 100%

Working on: C:\Users\Astrid\AppData\Local\Temp\Rtmp2Xbnbe/d4056c13a62_paad_tcga/paad_tcga/data_cna.txt
Working on: C:\Users\Astrid\AppData\Local\Temp\Rtmp2Xbnbe/d4056c13a62_paad_tcga/paad_tcga/data_cna_hg19.seg
Working on: C:\Users\Astrid\AppData\Local\Temp\Rtmp2Xbnbe/d4056c13a62_paad_tcga/paad_tcga/data_linear_cna.txt
Working on: C:\Users\Astrid\AppData\Local\Temp\Rtmp2Xbnbe/d4056c13a62_paad_tcga/paad_tcga/data_methylation_hm450.txt
Working on: C:\Users\Astrid\AppData\Local\Temp\Rtmp2Xbnbe/d4056c13a62_paad_tcga/paad_tcga/data_mrna_seq_v2_rsem.txt
Working on: C:\Users\Astrid\AppData\Local\Temp\Rtmp2Xbnbe/d4056c13a62_paad_tcga/paad_tcga/data_mrna_seq_v2_rsem_zscores_ref_all_samples.txt
Working on: C:\Users\Astrid\AppData\Local\Temp\Rtmp2Xbnbe/d4056c13a62_paad_tcga/paad_tcga/data_mrna_seq_v2_rsem_zscores_ref_diploid_samples.txt
Working on: C:\Users\Astrid\AppData\Local\Temp\Rtmp2Xbnbe/d4056c13a62_paad_tcga/paad_tcga/data_mutations.txt
Working on: C:\Users\Astrid\AppData\Local\Temp\Rtmp2Xbnbe/d4056c13a62_paad_tcga/paad_tcga/data_rppa.txt
Working on: C:\Users\Astrid\AppData\Local\Temp\Rtmp2Xbnbe/d4056c13a62_paad_tcga/paad_tcga/data_rppa_zscores.txt
Warning messages:
1: In .find_with_xfix(df_colnames, get(paste0(fix, 1)), get(paste0(fix,  :
   Multiple prefixes found, using keyword 'region' or taking first one
2: In .find_with_xfix(df_colnames, get(paste0(fix, 1)), get(paste0(fix,  :
   Multiple prefixes found, using keyword 'region' or taking first one

expRNAseqAllZscores <- experiments(paad)[8][[1]]
expRNA <- assays(expRNAseqAllZscores)[[1]]

head(expRNA)

      TCGA-2J-AAB1-01 TCGA-2J-AABE-01 TCGA-2J-AABU-01 TCGA-2L-AAQL-01 TCGA-3A-A9IC-01 TCGA-3A-A9J0-01
EXPH5              NA              NA              NA              NA              NA              NA
MBD6               NA              NA              NA              NA              NA              NA
PLEK               NA              NA              NA              NA              NA              NA
NT5C2              NA              NA              NA              NA              NA              NA
WDR37              NA              NA              NA              NA              NA              NA
NEBL               NA              NA              NA              NA              NA              NA

> sessionInfo()
R version 4.3.1 (2023-06-16 ucrt)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 19045)

Matrix products: default


locale:
[1] LC_COLLATE=English_Canada.utf8  LC_CTYPE=English_Canada.utf8    LC_MONETARY=English_Canada.utf8
[4] LC_NUMERIC=C                    LC_TIME=English_Canada.utf8    

time zone: America/New_York
tzcode source: internal

attached base packages:
[1] stats4    stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] survminer_0.4.9             ggpubr_0.6.0                ggplot2_3.4.4              
 [4] survival_3.5-7              org.Hs.eg.db_3.18.0         AnnotationDbi_1.63.2       
 [7] cBioPortalData_2.14.2       MultiAssayExperiment_1.28.0 SummarizedExperiment_1.31.1
[10] Biobase_2.61.0              GenomicRanges_1.53.2        GenomeInfoDb_1.37.6        
[13] IRanges_2.35.3              S4Vectors_0.39.3            BiocGenerics_0.47.0        
[16] MatrixGenerics_1.13.1       matrixStats_1.0.0           AnVIL_1.14.2               
[19] dplyr_1.1.3                

loaded via a namespace (and not attached):
  [1] rstudioapi_0.15.0         jsonlite_1.8.7            magrittr_2.0.3           
  [4] GenomicFeatures_1.53.2    rmarkdown_2.25            BiocIO_1.11.0            
  [7] zlibbioc_1.47.0           vctrs_0.6.4               memoise_2.0.1            
 [10] Rsamtools_2.17.0          RCurl_1.98-1.12           rstatix_0.7.2            
 [13] BiocBaseUtils_1.3.2       htmltools_0.5.6           S4Arrays_1.1.6           
 [16] progress_1.2.2            lambda.r_1.2.4            curl_5.2.0               
 [19] broom_1.0.5               SparseArray_1.1.12        htmlwidgets_1.6.2        
 [22] zoo_1.8-12                futile.options_1.0.1      cachem_1.0.8             
 [25] GenomicAlignments_1.37.0  mime_0.12                 lifecycle_1.0.3          
 [28] pkgconfig_2.0.3           Matrix_1.6-1.1            R6_2.5.1                 
 [31] fastmap_1.1.1             GenomeInfoDbData_1.2.10   shiny_1.7.5.1            
 [34] digest_0.6.33             colorspace_2.1-0          RaggedExperiment_1.26.0  
 [37] RSQLite_2.3.1             filelock_1.0.2            RTCGAToolbox_2.32.1      
 [40] km.ci_0.5-6               fansi_1.0.4               RJSONIO_1.3-1.8          
 [43] httr_1.4.7                abind_1.4-5               compiler_4.3.1           
 [46] withr_2.5.1               bit64_4.0.5               backports_1.4.1          
 [49] BiocParallel_1.35.4       carData_3.0-5             DBI_1.1.3                
 [52] ggsignif_0.6.4            biomaRt_2.57.1            rappdirs_0.3.3           
 [55] DelayedArray_0.27.10      rjson_0.2.21              tools_4.3.1              
 [58] httpuv_1.6.11             glue_1.6.2                restfulr_0.0.15          
 [61] promises_1.2.1            grid_4.3.1                generics_0.1.3           
 [64] gtable_0.3.4              KMsurv_0.1-5              tzdb_0.4.0               
 [67] tidyr_1.3.0               data.table_1.14.8         hms_1.1.3                
 [70] car_3.1-2                 xml2_1.3.5                utf8_1.2.3               
 [73] XVector_0.41.1            pillar_1.9.0              stringr_1.5.0            
 [76] later_1.3.1               splines_4.3.1             BiocFileCache_2.9.1      
 [79] lattice_0.21-8            rtracklayer_1.61.1        bit_4.0.5                
 [82] tidyselect_1.2.0          Biostrings_2.69.2         miniUI_0.1.1.1           
 [85] knitr_1.44                gridExtra_2.3             futile.logger_1.4.3      
 [88] xfun_0.40                 DT_0.30                   stringi_1.7.12           
 [91] yaml_2.3.7                evaluate_0.22             codetools_0.2-19         
 [94] tibble_3.2.1              cli_3.6.1                 xtable_1.8-4             
 [97] munsell_0.5.0             survMisc_0.5.6            Rcpp_1.0.11              
[100] GenomicDataCommons_1.26.0 dbplyr_2.3.4              png_0.1-8                
[103] XML_3.99-0.14             rapiclient_0.1.3          parallel_4.3.1           
[106] TCGAutils_1.22.2          ellipsis_0.3.2            readr_2.1.4              
[109] blob_1.2.4                prettyunits_1.2.0         bitops_1.0-7             
[112] scales_1.2.1              purrr_1.0.2               crayon_1.5.2             
[115] rlang_1.1.1               KEGGREST_1.41.4           rvest_1.0.3              
[118] formatR_1.14

cBioPortalData • 359 views

ADD COMMENT • link updated 4 months ago by Marcel Ramos 700 • written 4 months ago by Astrid Deschênes • 0

0

Entering edit mode

Hi Astrid,

I took a look at the data_mutations.txt and it looks like the Entrez_Gene_Id column is all NA.

FWIW, you can use downloadStudy and then untar to investigate the data in the files.

data_mutations <- read.delim("~/data/paad_tcga/data_mutations.txt", sep = "\t")
head(data_mutations)[, 1:5]
  Hugo_Symbol Entrez_Gene_Id        Center NCBI_Build Chromosome
1       MMS19             NA broad.mit.edu     GRCh37         10
2       UNC50             NA broad.mit.edu     GRCh37          2
3         ATM             NA broad.mit.edu     GRCh37         11
4      OR10G7             NA broad.mit.edu     GRCh37         11
5       ABTB3             NA broad.mit.edu     GRCh37         12
6        KRAS             NA broad.mit.edu     GRCh37         12

Note that paad[["mutations"]] is a RaggedExperiment and it only represents the first column in the mcols.

To represent a different column, you can use the i argument in assay:

assay(paad[["mutations"]], i = "Variant_Classification")[1:4, 1:4]
      TCGA-2J-AAB1-01     TCGA-2J-AAB4-01 TCGA-2J-AAB6-01 TCGA-2J-AAB8-01
EXPH5 "Frame_Shift_Ins"   NA              NA              NA             
MBD6  "Frame_Shift_Del"   NA              NA              NA             
PLEK  "Frame_Shift_Del"   NA              NA              NA             
NT5C2 "Missense_Mutation" NA              NA              NA

For more transformations, see the RaggedExperiment vignette and the ?RaggedExperiment::`assay-functions` documentation page.

Best regards,

Marcel

ADD REPLY • link 4 months ago Marcel Ramos 700

0

Entering edit mode

Hi Marcel,

Thanks for the quick answer.

To look at the z-score expression, I need to extract experiments(paad)[6] instead of experiments(paad)[8].

Has the order changed?

Best, Astrid

ADD REPLY • link 4 months ago Astrid Deschênes • 0

1

Entering edit mode

Hi Astrid,

Please always use named rather than numeric indices. It avoids issues as above. For me, experiment #8 is mutations.

> names(paad)[8]
[1] "mutations"

I suppose you meant to refer to :

assay(paad[["mrna_seq_v2_rsem_zscores_ref_all_samples"]])[1:3, 1:3]
             TCGA-2J-AAB1-01 TCGA-2J-AAB4-01 TCGA-2J-AAB6-01
LOC100130426         -2.3139         -2.3139         -2.3139
UBE2Q2P3              0.1625          1.6541         -1.7494
UBE2Q2P3              0.0103          0.0601         -0.9649

-Marcel

ADD REPLY • link 4 months ago Marcel Ramos 700