Біннінг кількісних змінних з формуванням тренду для задач скорингу
Loading...
Date
2017
Journal Title
Journal ISSN
Volume Title
Publisher
ДВНЗ «Київський національний економічний університет імені Вадима Гетьмана»
Abstract
У статті запропоновано методологічний підхід та алгоритм розбиття кількісних змінних на категорії із забезпеченням дотримання тренду в значеннях їх показників вагомості ознаки (WOE). У процесі аналізу спеціалізованої літератури з питань біннінгу та проведення численних експериментів на реальних даних було сформульовано низку вимог, яким має задовольняти алгоритм категоризації змінних. Реалізований засобами мови програмування R алгоритм дозволяє швидко провести категори-
зацію факторів, забезпечуючи одночасно тренд WOE та дотримання обмежень щодо обсягу спостережень у кожній групі. Даний підхід показав високу ефективність роботи у тому числі на великих масивах даних.
The article proposes a methodological approach and an algorithm for dividing of quantitative variables into categories, taking into account the trend in values of their weights of evidence (WOE). In the process of analyzing the specialized literature on binning issues and carrying out numerous experiments on real data, a number of requirements to algorithm of categorization of variables were formulated. The algorithm implemented by means of the programming language R enables rapid binning of factors, simultaneously ensuring the trend of the WOE and observing the limitations on the volume of observations in each group. This approach demonstrated high efficiency of work including on big data.
В статье предложен методологический подход и алгоритм разбиения количественных переменных на категории с обеспечением тренда в значениях их показателей весомости признака (WOE). В процессе анализа специализированной литературы по вопросам биннинга и проведения многочисленных экспериментов на реальных данных был сформулирован ряд требований, которым должен удовлетворять алгоритм категоризации переменных. Реализованный средствами языка программирования R алгоритм позволяет быстро провести категоризацию факторов, обеспечивая одновременно тренд WOE и соблюдение ограничений по объему наблюдений в каждой группе. Данный подход продемонстрировал высокую эффективность работы в том числе на больших массивах данных.
The article proposes a methodological approach and an algorithm for dividing of quantitative variables into categories, taking into account the trend in values of their weights of evidence (WOE). In the process of analyzing the specialized literature on binning issues and carrying out numerous experiments on real data, a number of requirements to algorithm of categorization of variables were formulated. The algorithm implemented by means of the programming language R enables rapid binning of factors, simultaneously ensuring the trend of the WOE and observing the limitations on the volume of observations in each group. This approach demonstrated high efficiency of work including on big data.
В статье предложен методологический подход и алгоритм разбиения количественных переменных на категории с обеспечением тренда в значениях их показателей весомости признака (WOE). В процессе анализа специализированной литературы по вопросам биннинга и проведения многочисленных экспериментов на реальных данных был сформулирован ряд требований, которым должен удовлетворять алгоритм категоризации переменных. Реализованный средствами языка программирования R алгоритм позволяет быстро провести категоризацию факторов, обеспечивая одновременно тренд WOE и соблюдение ограничений по объему наблюдений в каждой группе. Данный подход продемонстрировал высокую эффективность работы в том числе на больших массивах данных.
Description
Keywords
скорингова модель, біннінг, категоризація кількісної змінної, вагомість ознаки (WOE), інформаційна значущість (IV), scoring model, binning, categorization of a quantitative variable, weight of evidence (WOE), information value (IV), скоринговая модель, биннинг, категоризация количественной переменной, весомость признака (WOE), информационная значимость (IV)
Citation
Матвійчук А. В. Біннінг кількісних змінних з формуванням тренду для задач скорингу / А. В. Матвійчук, Ю. В. Клебан // Моделювання та інформаційні системи в економіці : зб. наук. пр. / М-во освіти і науки України, ДВНЗ «Київ. нац. екон. ун-т ім. Вадима Гетьмана» ; редкол.: В. К. Галіцин (голов. ред.) [та ін.]. – Київ : КНЕУ, 2016. – № 93. – С. 213–229.