بررسی مقایسه‌ای روش‌های مختلف آماری در ارزیابی ژنومی با استفاده از کد‌های ‏R

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانش‌‌آموخته کارشناسی ارشد آمار ریاضی، دانشکده علوم پایه، دانشگاه یاسوج

2 استادیار آمار ریاضی، دانشکده علوم پایه، دانشگاه یاسوج

3 دانشیار بیوانفورماتیک و ژنتیک، دانشکده کشاورزی، دانشگاه یاسوج

4 استادیار، گروه بیوتکنولوژی کشاورزی، دانشکده علوم کشاورزی، دانشگاه گیلان

5 دانش‌آموخته دکتری ژنتیک و اصلاح نژاد دام، دانشکده علوم کشاورزی، دانشگاه گیلان

چکیده

انتخاب ژنومی از بزرگ­ترین پیشرفت‌های حوزه به­نژادی حیوانات و گیاهان در اوایل قرن بیست و یکم میلادی محسوب می‌گردد. روال ارزیابی ژنومی، که روی انتخاب به کمک نشانگر بنا نهاده شد، متکی به پیش­فرض وجود عدم تعادل پیوستگی بین نشانگرهای تک ­نوکلئوتیدی (SNP) متراکم در سطح ژنوم و جایگاه‌های کنترل کننده صفات کمی (QTL) است.  از نظر ارزیابی ژنتیکی، انتخاب ژنومی، بسیاری از مدل‌های رایج را تحث تأثیر قرار داده و منجر به ایجاد مدل‌های آماری-ژنتیکی جدیدی شده است که هر یک فرضیه‌های مختلفی را کنکاش می­کنند. گرچه این مدل‌ها را می‌توان بر اساس معیارهای مختلفی گروه بندی کرد، اما با در نظر گرفتن توزیع صفات مورد بررسی، می‌توان آنها را در دو گروه فراسنجه‌ای و نافراسنجه‌ای تقسیم­بندی نمود. در این پژوهش صحت ارزش‌های ارثی ژنومی با استفاده از روش‌های آماری مختلف فراسنجه‌ای و نافراسنجه‌ای مورد بررسی قرار گرفته است. روش‌های فراسنجه‌ای مورد استفاده عبارت از رگرسیون ستیغی، رگرسیون لاسو، روش الاستیک­نت، مدل‌های مختلط و روش‌های بیزی شامل رگرسیون ستیغی بیزی، لاسو بیزی، بیز A، بیز B، بیز C و بیز D هستند. روش‌های نافراسنجه‌ای شامل ارگرسیون هسته‌ای، فضای هیلبرت با هسته بازآفرین و ماشین بردار پشتیبان رگرسیونی می باشند. تمامی این روش‌ها روی یک‌ مجموعه داده واقعی شامل اطلاعات ژنومی و فنوتیپی مربوط به ‎2300‎ حیوان، با استفاده از کُدهای R اجرا شدند. برای انتخاب مدل مناسب، از معیارهای صحت (همبستگی ارزش ارثی واقعی و برآورد شده) و میانگین مربعات خطا (MSE) استفاده شد. نتایج نشان داد که کارایی پیش‌بینی روش های فراسنجه‌ای نسبت به روش های ‌نافراسنجه‌ای بالاتر است. در میان مدل‌های ارزیابی ژنومی مورد استفاده به‌طور نسبی نشان داده شد که روش بیز ‎B نسبت به سایر مدل‌ها، از صحت و عملکرد بهتری برخوردار است و این با نتایج سایر پژوهشگران همخوانی نداشت. این تضاد احتمالاً به دلیل ساختار داده­های مورد استفاده بوده است. یکی از اهداف این پژوهش ارایه مدل‌های آماری ارزیابی ژنومی همراه با کُدهای اجرایی آنها در محیط R بوده است، لذا کُدهای یاد شده در این مقاله می‌توانند در یادگیری مدل‌های ارزیابی ژنتیکی مورد بحث کمک شایانی به‌کاربران بکنند.

کلیدواژه‌ها


عنوان مقاله [English]

Comparative study of statistical methods for genomic evaluation using R codes

نویسندگان [English]

  • Zahra Akbari 1
  • Arash Ardalan 2
  • Mostafa Ghaderi-Zefrehei 3
  • Farjad Rafeie 4
  • Misagh Moridi 5
1 M. Sc. Graduate of Mathematical Statistics, Faculty of Sciences, Yasouj University, Yasouj, Iran
2 Assistant Professor of Mathematical Statistics, Faculty of Sciences, Yasouj University, Yasouj, Iran
3 Associate Professor of Bioinformatics and Genetics, Faculty of Agriculture, Yasouj University, Yasouj, Iran
4 Assistant Professor, Department of Agricultural Biotechnology, Faculty of Agricultural Sciences, University of Guilan, Rasht, Iran
5 Ph.D. in Animal Breeding and Genetics, University of Guilan, Rasht, Iran‎
چکیده [English]

Genomic selection is one of the greatest advances in the field of animal and plant breeding in the early twentieth century. This genomic evaluation procedure, which was based on marker-assisted selection, relies on the assumption that there is linkage disequilibrium between dense single nucleotide markers (SNPs) at the genome level and quantitative trait control (QTL) sites. In terms of genetic evaluation, genomic selection influenced many common models and led to the development of new statistical genetic models, each of which explored different hypotheses. Although these models can be grouped according to different criteria, but by considering the distribution of the studied traits, they can be divided into: parametric and non-parametric groupes. In this study, the accuracy of genomic breeding values was investigated using various parametric and non-parametric statistical methods. Parametric methods were ridge regression, Lasso regression, Elastic net method, mixed models, Bayesian methods including Bayesian regression, Lasso Bayes, Bayes A, Bays B, Bays C and Bayes D. Non-parametric methods were kernel regression, reproducing kernel Hilbert spaces regression and regression support vector machine. All of these methods were performed on a real data set including genomic and phenotypic information of 2300 animals using R codes. To select the appropriate model, the criteria of accuracy (correlation of actual and estimated breeding values) and mean squared error (MSE) were used. The results showed that the predictive efficiency of parametric methods was higher than non-parametric-methods. Among the genomic evaluation models, it was shown that Bayes B was relatively more accurate and efficient than other models, however, this results did not agree with the results of other researchers, which may have been due to the data structure used in this study. Since one of the objectives of this study was to provide statistical models of genomic evaluation along with their executive codes in R environment, so the codes mentioned in this article could help the users to learn the genetic evaluation models discussed in this study.

کلیدواژه‌ها [English]

  • Accuracy of genomic evaluation
  • genomic selection
  • parametric and non-parametric methods
  • R environment
  1. Abdollahi-Arpanahi, R., Pakdel, A., Nejati-Javaremi, A. & Moradi Shahrbabak, M. (2013). Comparison of genomic evaluation methods in complex traits with different genetic architecture. Journal of Animal Production, 15(1), 65-77. (In Farsi)
  2. Aguilar, I., Misztal, I., Johnson, D. L., Legarra, A., Tsuruta, S. & Lawlor, T. J. (2010). Hot topic: a unified approach to utilize phenotypic, full pedigree, and genomic information for genetic evaluation of Holstein final score1. Journal of Dairy Science, 93, 743-752.
  3. Aliloo, H., Pryce, J. E., González-Recio, O., Cocks, B. G., Goddard, M. E. & Hayes, B. J. (2017). Including nonadditive genetic effects in mating programs to maximize dairy farm profitability. Journal of Dairy Science, 100, 1203-1222.
  4. An, N.-R., Lee, S.-S., Park, J.-E., Chai, H.-H., Cho, Y.-M. & Lim, D. (2017). Current status of genomic prediction using Multi-omics data in livestock. Journal of Biomedical and Translational Research, 18, 151-156.
  5. Bhat, J. A., Ali, S., Salgotra, R. K., Mir, Z. A., Dutta, S., Jadon, V., Tiagi, A., Mushtaq, M., Jain, N., Singh, P. K., Singh, G. P. & Prabhu, K. V. (2016). Genomic selection in the Era of next generation sequencing for complex traits in plant breeding. Frontiers in Genetics, 7(221), 1-11.
  6. Christensen, O.F. & Lund, M.S. (2010). Genomic prediction when some animals are not genotyped. Genetics Selection Evolution, 42(2), 1-8.
  7. Christensen, O. F., Madsen, P., Nielsen, B., Ostersen, T. & Su, G. (2012). Single-step methods for genomic evaluation in pigs. Animal, 6, 1565-1571.
  8. Cortes, C. & Vapnik, V. (1995). Support-Vector Networks. Machine Learning, 20, 273-297.
  9. Crossa, J., Pérez-Rodríguez, P., Cuevas, J., Montesinos-López, O., Jarquín, D., de Los Campos, G., Burgueño, J., González-Camacho, J. M., Pérez-Elizalde, S., Beyene, Y., Dreisigacker, S., Singh, R., Zhang, X., Gowda, M., Roorkiwal, M., Rutkoski, J. & Varshney, R. K. (2017). Genomic selection in plant breeding: methods, models, and perspectives. Trends in Plant Science, 22, 961-975.
  10. de los Campos‎, ‎G.‎, ‎Gianola‎, ‎‎D‎. & Rosa‎, G.‎J.M. (‎2009)‎. Reproducing Kernel Hilbert Spaces Regression‎: ‎a General Framework for Genetic Evaluation. Journal of Animal Science, 87(6), ‎1883‎.
  11. de los Campos‎, ‎G.‎, ‎ ‎Gianola‎, D‎., ‎Rosa‎, ‎G‎. ‎J‎. ‎M‎., ‎ Weigel‎, K‎. ‎A. & ‎Crossa, J‎. (‎2010)‎. Semi-parametric Genomic-enabled Prediction of Genetic Values Using Reproducing Kernel Hilbert Spaces Methods. Genetics Research, 92(04), ‎295-308‎.
  12. de los Campos‎, ‎G.‎, ‎‎Naya‎, H., ‎Gianola‎, D., ‎Crossa‎, J., ‎Legarra, A., Crossa, J., Legarra, A., Manfredi, E., Weigel, K. & Cotes, J. M. ‎(2009). Predicting quantitative traits with regression models for dense molecular markers and pedigrees‎. ‎Genetics, 182(1),: ‎375-385‎.
  13. Elshire, R. J., Glaubitz, J. C., Sun, Q., Poland, J. A., Kawamoto, K., Buckler, E. S. & Mitchell, S. E. (2011). A robust, simple genotyping-by-sequencing (GBS) approach for high diversity species. PLoS ONE, 6, e19379.
  14. Endelman, J. B. (2011). Ridge regression and other kernels for genomic selection with R Package rrBLUP. Plant Genome, 4, 250-255.
  15. Fikere, M., Barbulescu, D. M., Malmberg, M. M., Shi, F., Koh, J. C. O., Slater, A. T., MacLeod, I. M., Bowman, P. J., Salisbury, P. A., Spangenberg, G. C., Cogan, N. O. I. & Daetwyler, H. D. (2018). Genomic prediction using prior quantitative trait loci information reveals a large reservoir of underutilised blackleg resistance in diverse canola (Brassica napus L.) lines. Plant Genome, 11(2), 1-16.
  16. Gao, N., Martini, J. W. R., Zhang, Z., Yuan, X., Zhang, H., Simianer, H., et al. (2017). Incorporating gene annotation into genomic prediction of complex phenotypes. Genetics, 207, 489-501.
  17. Gianola‎, ‎D.‎, ‎de los Campos‎, G., ‎Hill‎, W. G., ‎Manfredi‎, E. & ‎Fernando‎., R. (‎2009). Additive genetic variability and the bayesian alphabet‎. ‎Genetics, 183, ‎347-363‎.
  18. Gianola‎, ‎D.‎, ‎‎Fernando‎, R‎. ‎L‎. & ‎Stella‎, A‎. (‎2006). Genomic-assisted prediction of genetic value with semiparametric procedures‎. ‎Genetics, 173‎, ‎1761-1776‎.
  19. Goddard, M. E.‎ & ‎Hayes, B. J‎. (2007). ‎Genomic selection‎. ‎Journal of Animal Breeding and Genetics, 124(6), 323-330‎.
  20. Goddard, M. (2009). Genomic selection: prediction of accuracy and maximisation of long term response. Genetica, 136, 245-257.
  21. Granato, I. S. C., Galli, G., de Oliveira Couto, E. G., Souza, M. B., Mendonça, L. F. & Fritsche-Neto, R. (2018). snpReady: a tool to assist breeders in genomic analysis. Molecular Breeding, 38, 102.
  22. Habier‎, ‎D.‎, ‎Fernando‎, ‎R‎. ‎L‎., ‎Kizilkaya‎, ‎K‎. ‎& ‎Garrick‎., D‎. ‎J‎.‎ (2011). Extension of the bayesian alphabet for genomic selection‎. ‎BMC Bioinformatics, 12, ‎186‎.
  23. Hayes, B. J., Bowman, P. J., Chamberlain, A. J. & Goddard, M. E. (2009a). Invited review: genomic selection in dairy cattle: progress and challenges. Journal of Dairy Science, 92, 433-443.
  24. Hayes, B. J., Visscher, P. M. & Goddard, M. E. (2009b). Increased accuracy of artificial selection by using the realized relationship matrix. Genetics Research, 91, 47-60.
  25. Hayes, B. J., Corbet, N. J., Allen, J. M., Laing, A. R., Fordyce, G., Lyons, R., McGowan, M. R. & Burns, B. M. (2019). Towards multi-breed genomic evaluations for female fertility of tropical beef cattle. Journal of Animal Science, 97(1), 55-62. 
  26. Henderson‎, ‎C‎.R. (1949). Estimates of changes in herd environment‎. ‎Journal of ‎Dairy Science‎, ‎32, ‎706‎.
  27. Henderson, C.R. (1975). Best linear unbiased estimation and prediction under a selection model. Biometrics, 31, 423-447.
  28. Hoerl‎, ‎A‎. ‎E.‎ ‎& Kennard‎, ‎R. W‎. ‎(1970). Ridge regression‎: ‎Biased estimation for non-orthogonal problems‎. ‎Technometrics‎, ‎12‎, ‎55-67‎.
  29. Hosseini-Vardanjani, S. M., Shariati, M. M., Moradi Shahrebabak, H. & Tahmoorespur, M. (2018) The accuracy of genomic predictions for milk related traits in Najdi cattle breed. Animal Science Journal (Pajouhesh & Sazandegi), 122, 93-104. (In Farsi)
  30. Jonas, E. & de Koning, D.-J. (2015). Genomic selection needs to be carefully assessed to meet specific requirements in livestock breeding programs. Frontiers in Genetics, 6(49), 1-8.
  31. Karatzoglou, A., Smola, A., Hornik, K. & Zeileis, A. (2004). kernlab - An S4 Package for Kernel Methods in R. Journal of Statistical Software, 11(9), 1-20.
  32. Long‎, ‎N.‎, ‎‎Gianola‎, D‎., ‎Rosa‎, ‎G‎.‎J‎.‎M‎. & ‎Weige, K‎.‎A‎. (‎2011). Application of ‎support vector regression to genome-assisted prediction of quantitative traits‎. ‎Theoretical and Applied Genetics‎, ‎123, ‎1065-1074.
  33. Maenhout‎, ‎S.‎, De Baets‎, ‎B‎., ‎Haesaert‎, ‎G‎. & ‎Van Bockstaele‎, E. ‎(2007). Support vector machine regression for the prediction of maize hybrid performance‎. ‎Theoretical and Applied Genetics‎, ‎115, ‎1003-1013‎.
  34. Meuwissen‎, ‎T‎. ‎H‎. ‎E.‎, ‎Hayes‎, ‎B‎. ‎J‎. & ‎Goddard., M‎. ‎E‎. (‎2001). Prediction of total genetic value using genome-wide dense marker maps‎. ‎Genetics, 157, ‎1819-1829‎.
  35. Meuwissen, T., Hayes, B. & Goddard, M. (2016). Genomic selection: a paradigm shift in animal breeding. Animal Frontiers, 6, 6-14.
  36. Misztal, I., Vitezica, Z. G., Legarra, A., Aguilar, I. & Swan, A. A. (2013). Unknown-parent groups in single-step genomic evaluation. Journal of Animal Breeding and Genetics, 130, 252-258.
  37. Mohammadi, Y., Shariati, M. M., Zerehdaran, S., Razmkabir, M., Sayyadnejad, M.B. & Zandi, M.B. (2015). The accuracy of genomic breeding value for production trait in Iranian Holstein Dairy Cattle using parametric and non-parametric methods. Journal of Animal Production, 11(1), 1-11. (In Farsi)
  38. Moradi, M., Abdollahi-Arpanahi, R., Hemmati, B. & Lavvaf, A. (2016). Comparison of parametric and resampling methods in genetic evaluation of quantitative traits with different genetic structure. Journal of Animal Production, 19(1), 1-12. (In Farsi)
  39. Moser, G., Lee, S. H., Hayes, B. J., Goddard, M. E., Wray, N. R. & Visscher, P. M. (2015). Simultaneous discovery, estimation and prediction analysis of complex traits using a bayesian mixture model. PLoS Genetics, 11, e1004969.
  40. Nadaraya, E. A. (1964) On Estimating Regression. Theory of Probability and Application, 9, 141-142‎.
  41. Ogutu, J. O‎., ‎Schulz-Streeck, T.‎ & ‎Piepho, H. P‎. (2012). ‎Genomic selection using regularized linear regression models‎: ‎ridge regression‎, ‎lasso‎, ‎elastic net and their extensions. BMC Proceedings‎, 6 (Suppl 2), S10. doi: 10.1186/1753-6561-6-S2-S10.
  42. Pérez‎, ‎P., ‎‎de los Campos‎, G., ‎Crossa‎, J. & ‎Gianola‎, D. (‎2010). Genomic-enabled prediction based on molecular markers and pedigree using the‎ Bayesian linear regression package in R‎. ‎Plant Genome, 3‎, ‎106-116‎.
  43. Pérez, P. & de los Campos, G. (2014). Genome-wide regression and prediction with the BGLR statistical package. Genetics, 198(2), 483-495.
  44. Robinson, G. K. (1991). That BLUP is a good thing: the estimation of random effects. Statistical Science, 6(1), 48-51.
  45. Schrag, T.A., Westhues, M., Schipprack, W., Seifert, F., Thiemann, A., Scholten, S. & Melchinger, A.E. (2018). Beyond genomic prediction: combining different types of omics data can improve prediction of hybrid performance in maize. Genetics, 208, 1373-1385.
  46. Silverman‎, ‎B‎. ‎W.‎ ‎(1986). Density Estimation for Statistics and Data Analysis‎. ‎Chapman and Hall‎.
  47. Simon, N., Friedman, J., Hastie, T. & Tibshirani, R. (2011). Regularization Paths for Cox's Proportional Hazards Model via Coordinate Descent. Journal of Statistical Software, 39(5), 1-13.
  48. Teimurian, M., Shariati, M.M. & Aslaminejad, A.A. (2016). Comparison of Methods for the Implementation of Genomic Selection in Holstein. Research on Animal Production, 7(14), 198-203. (In Farsi)
  49. Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, 58, 267-288.
  50. VanRaden, P.M. (2008). Efficient methods to compute genomic predictions. Journal of Dairy Science, 91, 4414-4423.
  51. Vapnik‎, ‎V.‎ ‎(1995). The nature of statistical learning theory. (2nd ed.)‎. ‎Springer‎.
  52. Varona, L., Legarra, A., Toro, M.A. & Vitezica, Z.G. (2018). Non-additive effects in genomic selection. Frontiers in Genetics, 9(78), 1-12.
  53. Watson, G. S. (1964). Smooth regression analysis. Sankhyā: The Indian Journal of Statistics, Series A, 26(4), 359-372.
  54. Weller, J. I., Ezra, E. & Ron, M. (2017). Invited review: a perspective on the future of genomic selection in dairy cattle. Journal of Dairy Science, 100, 8633-8644.
  55. Wimmer, V., Lehermeier, C., Albrecht, T., Auinger, H.-J., Wang, Y. & Schön, C.-C. (2013). Genome-wide prediction of traits with different genetic architecture through efficient variable selection. Genetics, 195, 573-587.
  56. Whittaker, J. C., Thompson, R., and Denham, M. C. (1999). Marker-assisted selection using ridge regression. Annals of Human Genetics, 63, 366-366.
  57. Yi, N. & Xu, S. (2008). Bayesian LASSO for quantitative trait loci mapping. Genetics, 179, 1045-1055.
  58. Zeng, P. & Zhou, X. (2017). Non-parametric genetic prediction of complex traits with latent Dirichlet process regression models. Nature Communications, 8(456), 1-11.
  59. Zhang, X., Lourenco, D., Aguilar, I., Legarra, A. & Misztal, I. (2016). Weighting strategies for single-step genomic BLUP: an iterative approach for accurate calculation of GEBV and GWAS. Frontiers in Genetics, 7(743), 1-14.
  60. Zhou, X., Carbonetto, P. & Stephens, M. (2013). Polygenic modeling with bayesian sparse linear mixed models. PLoS Genetics, 9, e1003264.
  61. Zou‎, ‎H‎. ‎& Hastie‎, ‎T‎. ‎(2005). Regularization and variable ‎Selection via the Elastic Net‎. ‎Journal of the Royal Statistical Society‎, ‎Series B‎, ‎67(2)‎, ‎301-320‎.