Research of the dependence of the efficiency of modeling the creditworthiness of borrowers on the method of forming a control subset

dc.contributor.authorPyrohov, Viacheslav
dc.contributor.authorПирогов, В’ячеслав І.
dc.contributor.authorTurchenko, Stanislav
dc.contributor.authorТурченко, Станіслав В.
dc.date.accessioned2024-04-01T08:23:08Z
dc.date.available2024-04-01T08:23:08Z
dc.date.issued2020
dc.description.abstractIn the article has been conducted a research aiming increase of classification result stability of commercial bank’s debtor creditworthiness with usage of boosted decision trees and neural network algorithms due to the use of stratified sampling. It is proposed to improve the classical procedure of stratified sampling by taking into account not only the target variable, but also the most significant predictors of the model when forming the control subset. Experimental calculations to test the proposed hypotheses were carried out using the program packages LGBM and H2O on the data of international consumer finance provider Home Credit. In the article checked and confirmed that the use of stratified sampling in the process of forming a control subset during training of machine learning models makes possible to increase their stability and accuracy of forecasts on new data sets. As per the achieved results, the authors’ approach of stratified sampling during forming a control dataset by target variable and the most significant characteristics of a model demonstrates a higher average accuracy for boosted decision trees on the test subset compared to the standard stratified sampling algorithm and random selection. У статті проведено дослідження з підвищення стійкості результатів класифікації кредитоспроможності боржників комерційного банку з використанням бустингових дерев рішень та нейромережевих алгоритмів за рахунок застосування стратифікованого семплінгу. Запропоновано удосконалення класичної процедури стратифікованого семплінгу шляхом врахування при формуванні контрольної вибірки не тільки цільової змінної, але й найбільш значущих предикторів моделі. Експериментальні розрахунки для перевірки висунутих гіпотез проведено з використанням програмних пакетів LGBM і H2O на даних міжнародного провайдера споживчого кредитування Home Credit. У статті перевірено та підтверджено, що використання стратифікованого семплінгу в процесі формування контрольної вибірки під час навчання моделей машинного навчання дозволяє підвищити їх стабільність і точність прогнозів на нових наборах даних. Відповідно до отриманих результатів, авторський підхід до стратифікованого семплінгу при формуванні контрольного набору даних за цільовою змінною та найбільш значущими характеристиками моделі демонструє вищу середню точність для бустингових дерев рішень на тестовій вибірці в порівнянні зі стандартним стратифікованим алгоритмом семплінгу та випадковим відбором.
dc.identifier.citationPyrohov V. Research of the dependence of the efficiency of modeling the creditworthiness of borrowers on the method of forming a control subset / Viacheslav Pyrohov, Stanislav Turchenko // Нейро-нечіткі технології моделювання в економіці : наук.-анал. журн. / М-во освіти і науки України, ДВНЗ «Київ. нац. екон. ун-т ім. Вадима Гетьмана» ; [редкол.: А. В. Матвійчук (голов. ред.) та ін.]. – Київ : КНЕУ, 2020. – № 9. – С. 156–174.
dc.identifier.doi10.33111/nfmte.2020.156
dc.identifier.issn2306-3289
dc.identifier.urihttps://ir.kneu.edu.ua/handle/2010/43379
dc.language.isoen
dc.publisherДВНЗ «Київський національний економічний університет імені Вадима Гетьмана»
dc.subjectdecision tree
dc.subjectgradient boosting
dc.subjectneural network
dc.subjectstratified sampling
dc.subjectдерево рішень
dc.subjectградієнтний бустинг
dc.subjectнейронна мережа
dc.subjectстратифікований семплінг
dc.subject.udc330.4
dc.titleResearch of the dependence of the efficiency of modeling the creditworthiness of borrowers on the method of forming a control subset
dc.title.alternativeДослідження залежності ефективності моделювання кредитоспроможності позичальників від способу формування контрольної вибірки
dc.typeArticle
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
Nntme_20_9-6.pdf
Size:
1.23 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description:
Collections