Використання стратифікованого семплінгу контрольної вибірки для покращення предикативності моделей бустінгових дерев рішень

Loading...
Thumbnail Image
Date
2020
Journal Title
Journal ISSN
Volume Title
Publisher
ДВНЗ «Київський національний університет імені Вадима Гетьмана»
Abstract
У статті проведено дослідження щодо забезпечення стабільності результату класифікації кредитоспроможності позичальника фізичної особи банку за допомогою алгоритму бустінгових дерев рішень з використанням стратифікованого семплінгу. Описано загальний принцип роботи платформи для досліджень у сфері науки про дані Kaggle, в рамках якого фахівці зі статистики та добування даних конкурують у створенні найкращих моделей для прогнозування та опису даних, запропонованих компаніями або користувачами. Проаналізовано моделі та програмну реалізацію алгоритму бустінгових дерев рішень для вирішення задачі оцінки кредитоспроможності позичальника банку. Описано найефективніші програмні пакети, що використовуються для програмної реалізації бустінгових дерев рішень — XGBoost та LGBM Для підтвердження результатів застосовано інструментарій програмного пакету LGBM на даних банку Home Credit доступних у ході Home Credit Competition на платформі з дослідження даних Kaggle. Наведено деталі змагання Home Credit Competition: проведено опис наданих даних, підхід до створення характеристик для навчання моделі та програмний підхід що був запропонований у ході участі у змаганні. У ході дослідження запропоновано використання стратифікованого семплінгу контрольної вибірки за цільовою змінною та найбільш значущими характеристиками в ході навчання моделі задля збільшення стабільності результату класифікації і підвищення ефективності валідації модернізації архітектури моделі. Експериментальним шляхом доведено, що використання стратифікованого семплінгу контрольної вибірки у ході навчання моделей бустінгових дерев рішень дає можливість збільшити стабільність результату моделі, що підвищує ефективність валідації модернізації архітектури моделі. In the article has been conducted a research aiming increase of classification result stability of commercial bank’s debtor creditworthiness with usage of boosted decision trees algorithm with application of stratified sampling. The general principle of the Kaggle data science research platform is described, in which statistics and data mining specialists compete to create the best models for forecasting and data modelling based on the data offered by companies or users. Has been conducted an analysis of models and program implementation of boosted decision trees algorithm for estimation of commercial bank’s debtor creditworthiness. The most effective program packages are described — XGBoost and LGBM, which are used for program implementation of boosted decision trees. For confirmation of the results, has been used a program package LGBM on data of Home Credit Bank, available in the scope of Home Credit Competition on data science platform Kaggle. The details of Home Credit Competition are shared: conducted a description of input data, a description of an approach for creation of characteristics for training a model and technical approach which was proposed during participation in the competition. During the research proposed to use stratified sampling of control dataset by target variable and the most significant characteristics during training of a model to increase a stability of the result of classification and enhance efficiency during a process of modernization of model’s architecture. Proved experimentally, that the use of stratified sampling of the control sample during the training of boosted decision tree models makes possible to increase the stability of the model result, which increases the efficiency of validation of modernization of the model architecture.
Description
Keywords
дерева рішень, градієнтний бустінг, стратифікований семплінг, XGBoost, LGBM, Kaggle, decision trees, gradient boosting, stratified sampling, XGBoost, LGBM, Kaggle
Citation
Пірогов В. І. Використання стратифікованого семплінгу контрольної вибірки для покращення предикативності моделей бустінгових дерев рішень / Пірогов В. І. // Моделювання та інформаційні системи в економіці : зб. наук. пр. / М-во освіти і науки України, ДВНЗ «Київ. нац. екон. ун-т ім. Вадима Гетьмана» ; [редкол.: О. Є. Камінський (відп. ред.) та ін.]. – Київ : КНЕУ, 2020. – Вип. 99. – С. 119–131.