مقایسه روش‌های مدل‌بندی پاسخ ترتیبی از قبیل درخت تصمیم، انباشت تصادفی ترتیبی و رگرسیون نسبت پیوسته جریمه شده در داده‌های با ابعاد بالا

ترکاشوند, زهرا; محجوب, حسین; سلطانیان, علیرضا; فرهادیان, مریم

doi:10.52547/ismj.24.5.454

دوره 24، شماره 5 - ( دو ماهنامه طب جنوب 1400 ) جلد 24 شماره 5 صفحات 468-454 | برگشت به فهرست نسخه ها

مقایسه روش‌های مدل‌بندی پاسخ ترتیبی از قبیل درخت تصمیم، انباشت تصادفی ترتیبی و رگرسیون نسبت پیوسته جریمه شده در داده‌های با ابعاد بالا

زهرا ترکاشوند¹

، حسین محجوب²

، علیرضا سلطانیان^*

³، مریم فرهادیان²

1- گروه آمار زیستی، دانشکده بهداشت، دانشگاه علوم پزشکی همدان، همدان، ایران
2- گروه آمار زیستی، دانشکده بهداشت، دانشگاه علوم پزشکی همدان، همدان، ایران
مرکز تحقیقات علوم بهداشتی، دانشکده بهداشت، دانشگاه علوم پزشکی همدان، همدان، ایران
3- گروه آمار زیستی، دانشکده بهداشت، دانشگاه علوم پزشکی همدان، همدان، ایران
مرکز تحقیقات مدلسازی بیماری‌های غیرواگیر، دانشکده بهداشت، دانشگاه علوم پزشکی همدان، همدان، ایران

چکیده: (1632 مشاهده)

زمینه: در بسیاری از تحقیقات در حوزه‌های پزشکی و بهداشتی متغیر پاسخ ماهیت ترتیبی دارد. روشهای مرسوم مبتنی بر فرض استقلال میان متغیرهای پیشگو و همچنین زیاد بودن تعداد نمونهها (n) در مقایسه با تعداد کووریتها (p) هستند. لذا برای دادههای ژنتیکی با ابعاد بالا که در آن‌ها p>n میباشد، استفاده از مدلهای مرسوم امکان‌پذیر نیست. در پژوهش حاضر از روشهای رگرسیون نسبت پیوسته جریمه شده، درخت تصمیم و انباشت ترتیبی برای پیش‎بینی پاسخهای ترتیبی استفاده خواهد شد.
مواد و روش‌ها: در مطالعه حاضر از سه دیتاست استفاده شد. مجموعه داده B-cell حاوی اطلاعات 12625 ژن در 128 بیمار که پاسخ در چهار سطح ترتیبی قرار داشت، داده HCC مرتبط با سرطان کبد شامل 1469 ژن در 56 بیمار که پاسخ در سه سطح ترتیبی قرار داشت و همچنین داده قلب شامل اطلاعات پنج متغیر در 294 بیمار تحت آنژیوگرافی که پاسخ در 5 سطح قرار داشت. عملکرد روشهای مدنظر با استفاده از مجموعه داده یکسان آموزش و آزمون براساس شاخص‌هایی از قبیل دقت، گاما و کاپا مورد مقایسه قرار گرفت.
یافته‌ها: در دو مجموعه داده با ابعاد بالا مدل انباشت ترتیبی از توانایی پیش‌بینی بالاتری برخوردار بود. در حالی که برای مجموعه داده با ابعاد پایین مدل رگرسیون نسبت پیوسته جریمه شده عملکرد پیش‌بینی بهتری داشت.
نتیجه‌گیری: انتخاب بهترین مدل پیش‌بینی از بین مدل‌های بکار رفته بستگی به مجموعه داده مورد استفاده دارد و برای هر مجموعه داده بایستی روش‌های مختلف را مورد بررسی قرار داد تا به بهترین مدل دست یافت.

واژه‌های کلیدی: پاسخ ترتیبی، روش رگرسیون نسبت پیوسته جریمه شده، روش انباشت ترتیبی، داده‌های بیان ژن

متن کامل [PDF 693 kb] (391 دریافت)

نوع مطالعه: پژوهشي | موضوع مقاله: عمومى
دریافت: 1400/9/7 | پذیرش: 1400/9/7 | انتشار: 1400/9/7

فهرست منابع

1. Chen CK. The Classification Of Cancer Stage Microarray Data. Comput Meth Prog Bio 2012; 108(3): 1070-7.

2. Archer KJ, Hou J, Zhou Q, et al. Ordinalgmifs: An R Package For Ordinal Regression In HighDimensional Data Settings. Cancer Inform 2014; 13: CIN.S20806.

3. Farhadi Z, Shahsavani D. Gene Expression Data Clustering With Random Forest Dissimilarity. Razi J Med Sci 2015; 22(136): 109-18. (Persian)

4. Safe M, Faradmal J, Mahjub H. A Comparison Between Cure Model And Recursive Partitioning: A Retrospective Cohort Study Of Iranian Female With Breast Cancer. Comput Math Methods Med 2016; 2016: 9425629.

5. Archer KJ, Williams AA. L1 Penalized Continuation Ratio Models For Ordinal Response Prediction Using High‐Dimensional Datasets. Stat Med 2012; 31(14): 1464-74.

6. Tibshirani R. Regression Shrinkage And Selection Via The Lasso. J Royal Stat Soc Series B (Methodological) 1996; 58(1): 267-88.

7. Buntine W, Niblett T. A Further Comparison Of Splitting Rules For Decision-Tree Induction. Mach Learn 1992; 8: 75-85.

8. Zhang H, Singer B. Recursive Partitioning And Applications. New York: Springer Science & Business Media, 2010, 79-95.

9. Breiman L, Friedman J, Stone CJ, et al. Classification And Regression Trees. 1st ed. Chapman And Hall/CRC, 1984, 18-41.

10. Archer KJ. Rpartordinal: An R Package For Deriving A Classification Tree For Predicting An Ordinal Response J Stat Softw 2010; 34: 7.

11. Galimberti G, Soffritti G, Di Maso M. Classification Trees For Ordinal Responses In R: The Rpartscore Package. J Stat Softw 2012; 47(10): 1-25.

12. Cappelli C, Mola F, Siciliano R. A Statistical Approach To Growing A Reliable Honest Tree. Comput Stat Data Anal 2002; 38(3): 285-99.

13. Mingers J. Expert Systems—Rule Induction With Statistical Data. J Oper Res Soc 1987; 38(1): 39-47.

14. Niblett T, Bratko I. Learning Decision Rules In Noisy Domains. Proceedings Of Expert Systems' 86, The 6Th Annual Technical Conference On Research And Development In Expert Systems III. Brighton, United Kingdom: Cambridge University Press, 1987.

15. Genuer R, Poggi JM, Tuleau C. Random Forests: Some Methodological Insights. arXiv Preprint arXiv:0811.3619. 2008.

16. Hornung R. Ordinal Forests. J Classif 2020; 37: 4-17.

17. Drummond C, Holte RC. C4.5, Class Imbalance, And Cost Sensitivity: Why Under-Sampling Beats Over-Sampling. In Workshop On Learning From Imbalanced Datasets II. Washington DC: Citeseer, 2003; 11: 1-8.

18. Breiman L, Friedman J, Olshen R, et al. Classification And Regression Trees. Wadsworth Int Group 1984; 37(15): 237-51.

19. Gentry AE, Jackson-Cook CK, Lyon DE, et al. Penalized Ordinal Regression Methods For Predicting Stage Of Cancer In High-Dimensional Covariate Spaces. Cancer Inform 2015; 14(s2): CIN.S17277.

20. Janitza S, Tutz G, Boulesteix AL. Random Forest For Ordinal Responses: Prediction And Variable Selection. Comput Stat Data Anal 2016; 96(C): 57-73.

بازنشر اطلاعات
	این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.