نوع مقاله : مقاله پژوهشی
نویسندگان
1
دانشآموخته کارشناسی ارشد آمار ریاضی، دانشکده علوم پایه، دانشگاه یاسوج
2
استادیار آمار ریاضی، دانشکده علوم پایه، دانشگاه یاسوج
3
دانشیار بیوانفورماتیک و ژنتیک، دانشکده کشاورزی، دانشگاه یاسوج
4
استادیار، گروه بیوتکنولوژی کشاورزی، دانشکده علوم کشاورزی، دانشگاه گیلان
5
دانشآموخته دکتری ژنتیک و اصلاح نژاد دام، دانشکده علوم کشاورزی، دانشگاه گیلان
چکیده
انتخاب ژنومی از بزرگترین پیشرفتهای حوزه بهنژادی حیوانات و گیاهان در اوایل قرن بیست و یکم میلادی محسوب میگردد. روال ارزیابی ژنومی، که روی انتخاب به کمک نشانگر بنا نهاده شد، متکی به پیشفرض وجود عدم تعادل پیوستگی بین نشانگرهای تک نوکلئوتیدی (SNP) متراکم در سطح ژنوم و جایگاههای کنترل کننده صفات کمی (QTL) است. از نظر ارزیابی ژنتیکی، انتخاب ژنومی، بسیاری از مدلهای رایج را تحث تأثیر قرار داده و منجر به ایجاد مدلهای آماری-ژنتیکی جدیدی شده است که هر یک فرضیههای مختلفی را کنکاش میکنند. گرچه این مدلها را میتوان بر اساس معیارهای مختلفی گروه بندی کرد، اما با در نظر گرفتن توزیع صفات مورد بررسی، میتوان آنها را در دو گروه فراسنجهای و نافراسنجهای تقسیمبندی نمود. در این پژوهش صحت ارزشهای ارثی ژنومی با استفاده از روشهای آماری مختلف فراسنجهای و نافراسنجهای مورد بررسی قرار گرفته است. روشهای فراسنجهای مورد استفاده عبارت از رگرسیون ستیغی، رگرسیون لاسو، روش الاستیکنت، مدلهای مختلط و روشهای بیزی شامل رگرسیون ستیغی بیزی، لاسو بیزی، بیز A، بیز B، بیز C و بیز D هستند. روشهای نافراسنجهای شامل ارگرسیون هستهای، فضای هیلبرت با هسته بازآفرین و ماشین بردار پشتیبان رگرسیونی می باشند. تمامی این روشها روی یک مجموعه داده واقعی شامل اطلاعات ژنومی و فنوتیپی مربوط به 2300 حیوان، با استفاده از کُدهای R اجرا شدند. برای انتخاب مدل مناسب، از معیارهای صحت (همبستگی ارزش ارثی واقعی و برآورد شده) و میانگین مربعات خطا (MSE) استفاده شد. نتایج نشان داد که کارایی پیشبینی روش های فراسنجهای نسبت به روش های نافراسنجهای بالاتر است. در میان مدلهای ارزیابی ژنومی مورد استفاده بهطور نسبی نشان داده شد که روش بیز B نسبت به سایر مدلها، از صحت و عملکرد بهتری برخوردار است و این با نتایج سایر پژوهشگران همخوانی نداشت. این تضاد احتمالاً به دلیل ساختار دادههای مورد استفاده بوده است. یکی از اهداف این پژوهش ارایه مدلهای آماری ارزیابی ژنومی همراه با کُدهای اجرایی آنها در محیط R بوده است، لذا کُدهای یاد شده در این مقاله میتوانند در یادگیری مدلهای ارزیابی ژنتیکی مورد بحث کمک شایانی بهکاربران بکنند.
کلیدواژهها
عنوان مقاله [English]
Comparative study of statistical methods for genomic evaluation using R codes
نویسندگان [English]
-
Zahra Akbari
1
-
Arash Ardalan
2
-
Mostafa Ghaderi-Zefrehei
3
-
Farjad Rafeie
4
-
Misagh Moridi
5
1
M. Sc. Graduate of Mathematical Statistics, Faculty of Sciences, Yasouj University, Yasouj, Iran
2
Assistant Professor of Mathematical Statistics, Faculty of Sciences, Yasouj University, Yasouj, Iran
3
Associate Professor of Bioinformatics and Genetics, Faculty of Agriculture, Yasouj University, Yasouj, Iran
4
Assistant Professor, Department of Agricultural Biotechnology, Faculty of Agricultural Sciences, University of Guilan, Rasht, Iran
5
Ph.D. in Animal Breeding and Genetics, University of Guilan, Rasht, Iran
چکیده [English]
Genomic selection is one of the greatest advances in the field of animal and plant breeding in the early twentieth century. This genomic evaluation procedure, which was based on marker-assisted selection, relies on the assumption that there is linkage disequilibrium between dense single nucleotide markers (SNPs) at the genome level and quantitative trait control (QTL) sites. In terms of genetic evaluation, genomic selection influenced many common models and led to the development of new statistical genetic models, each of which explored different hypotheses. Although these models can be grouped according to different criteria, but by considering the distribution of the studied traits, they can be divided into: parametric and non-parametric groupes. In this study, the accuracy of genomic breeding values was investigated using various parametric and non-parametric statistical methods. Parametric methods were ridge regression, Lasso regression, Elastic net method, mixed models, Bayesian methods including Bayesian regression, Lasso Bayes, Bayes A, Bays B, Bays C and Bayes D. Non-parametric methods were kernel regression, reproducing kernel Hilbert spaces regression and regression support vector machine. All of these methods were performed on a real data set including genomic and phenotypic information of 2300 animals using R codes. To select the appropriate model, the criteria of accuracy (correlation of actual and estimated breeding values) and mean squared error (MSE) were used. The results showed that the predictive efficiency of parametric methods was higher than non-parametric-methods. Among the genomic evaluation models, it was shown that Bayes B was relatively more accurate and efficient than other models, however, this results did not agree with the results of other researchers, which may have been due to the data structure used in this study. Since one of the objectives of this study was to provide statistical models of genomic evaluation along with their executive codes in R environment, so the codes mentioned in this article could help the users to learn the genetic evaluation models discussed in this study.
کلیدواژهها [English]
-
Accuracy of genomic evaluation
-
genomic selection
-
parametric and non-parametric methods
-
R environment