№ 9
Permanent URI for this collection
Browse
Browsing № 9 by Subject "decision tree"
Now showing 1 - 2 of 2
Results Per Page
Sort Options
Item Research of the dependence of the efficiency of modeling the creditworthiness of borrowers on the method of forming a control subset(ДВНЗ «Київський національний економічний університет імені Вадима Гетьмана», 2020) Pyrohov, Viacheslav; Пирогов, В’ячеслав І.; Turchenko, Stanislav; Турченко, Станіслав В.In the article has been conducted a research aiming increase of classification result stability of commercial bank’s debtor creditworthiness with usage of boosted decision trees and neural network algorithms due to the use of stratified sampling. It is proposed to improve the classical procedure of stratified sampling by taking into account not only the target variable, but also the most significant predictors of the model when forming the control subset. Experimental calculations to test the proposed hypotheses were carried out using the program packages LGBM and H2O on the data of international consumer finance provider Home Credit. In the article checked and confirmed that the use of stratified sampling in the process of forming a control subset during training of machine learning models makes possible to increase their stability and accuracy of forecasts on new data sets. As per the achieved results, the authors’ approach of stratified sampling during forming a control dataset by target variable and the most significant characteristics of a model demonstrates a higher average accuracy for boosted decision trees on the test subset compared to the standard stratified sampling algorithm and random selection. У статті проведено дослідження з підвищення стійкості результатів класифікації кредитоспроможності боржників комерційного банку з використанням бустингових дерев рішень та нейромережевих алгоритмів за рахунок застосування стратифікованого семплінгу. Запропоновано удосконалення класичної процедури стратифікованого семплінгу шляхом врахування при формуванні контрольної вибірки не тільки цільової змінної, але й найбільш значущих предикторів моделі. Експериментальні розрахунки для перевірки висунутих гіпотез проведено з використанням програмних пакетів LGBM і H2O на даних міжнародного провайдера споживчого кредитування Home Credit. У статті перевірено та підтверджено, що використання стратифікованого семплінгу в процесі формування контрольної вибірки під час навчання моделей машинного навчання дозволяє підвищити їх стабільність і точність прогнозів на нових наборах даних. Відповідно до отриманих результатів, авторський підхід до стратифікованого семплінгу при формуванні контрольного набору даних за цільовою змінною та найбільш значущими характеристиками моделі демонструє вищу середню точність для бустингових дерев рішень на тестовій вибірці в порівнянні зі стандартним стратифікованим алгоритмом семплінгу та випадковим відбором.Item Виявлення шахрайства в автострахуванні: проблема незбалансованої вибірки(ДВНЗ «Київський національний економічний університет імені Вадима Гетьмана», 2020) Кононова, Катерина Ю.; Kononova, Kateryna; Гавриленко, Анна С.; Havrylenko, AnnaВирішуючи завдання класифікації методами машинного навчання, фахівці з аналізу даних часто стикаються з проблемою незбалансованих даних. Наявність дисбалансу класів характерна для даних фінансового сектору, зокрема для задач з виявлення шахрайства в автострахуванні. Навчання моделей на незбалансованих даних може призвести до неправильної класифікації та великої кількості помилкових визначень через схильність класифікатора відносити випадки до класу більшості. Дана робота присвячена дослідженню способів вирішення проблеми дисбалансу класів у задачі класифікації страхових випадків. Для вирішення поставленого завдання було використано базу даних у сфері автострахування, в якій міститься інформація щодо наявності чи відсутності шахрайства за позовами клієнтів. Клас шахрайських випадків, який цікавить нас найбільше, представлений у базі втричі меншою кількістю записів за правомірні позови. Задля уникнення проблем моделювання на незбалансованих даних були застосовані методи передискретизації, зокрема випадковий оверсемплінг та SMOTE. Оцінка результатів, отриманих на різних вибірках, показує, що методи балансування дозволяють суттєво покращити якість класифікації. У ході дослідження на отриманих наборах даних були побудовані класифікатори на основі логістичної регресії, методу опорних векторів, алгоритму k-найближчих сусідів, Байєсівського класифікатора, дерева рішень, випадкового лісу та нейронної мережі персептронного типу. Порівняльний аналіз показників якості побудованих класифікаторів допоміг визначити найкращі методи для виявлення шахрайських претензій. Для обох наборів даних такими методами були визнані логістична регресія та нейронна мережа, які мають високий рівень виявлення шахрайських випадків у поєднанні з належною загальною прогностичною силою моделі. Solving classification problems using machine learning methods, data scientists often face the problem of data imbalances. Class imbalance is common in financial sector, in particular for the task of fraud detection in car insurance. Training models on unbalanced data can lead to misclassifications and large numbers of false positives due to the tendency of the model to classify observed cases as the majority class. This paper deals with the study of ways to solve the problem of class imbalance in the task of insurance claims classifying. To solve this problem, a database in the field of auto insurance was used, which provide information about the presence or absence of fraudulent customer claims. The class of fraudulent cases that interests us the most is represented in the database by three times fewer records than for legitimate claims. Oversampling techniques including random oversampling and SMOTE were applied to avoid modeling problems on unbalanced data. Evaluation of the results obtained on different samples indicates that balancing methods can significantly improve the quality of the classification. Logistic regression, support vector machine, k-nearest neighbors classifier, Bayesian classifier, decision tree, random forest and perceptron type neural network were built on the obtained datasets. A comparative analysis of the models’ qualities allowed to determine the best methods for detecting fraudulent claims. For both datasets, logistic regression and neural network were recognized as such methods, having a high level of fraud detection combined with a good predictive power of the model.