Browsing by Author "Kononova, Kateryna"
Now showing 1 - 6 of 6
Results Per Page
Sort Options
Item Виявлення шахрайства в автострахуванні: проблема незбалансованої вибірки(ДВНЗ «Київський національний економічний університет імені Вадима Гетьмана», 2020) Кононова, Катерина Ю.; Kononova, Kateryna; Гавриленко, Анна С.; Havrylenko, AnnaВирішуючи завдання класифікації методами машинного навчання, фахівці з аналізу даних часто стикаються з проблемою незбалансованих даних. Наявність дисбалансу класів характерна для даних фінансового сектору, зокрема для задач з виявлення шахрайства в автострахуванні. Навчання моделей на незбалансованих даних може призвести до неправильної класифікації та великої кількості помилкових визначень через схильність класифікатора відносити випадки до класу більшості. Дана робота присвячена дослідженню способів вирішення проблеми дисбалансу класів у задачі класифікації страхових випадків. Для вирішення поставленого завдання було використано базу даних у сфері автострахування, в якій міститься інформація щодо наявності чи відсутності шахрайства за позовами клієнтів. Клас шахрайських випадків, який цікавить нас найбільше, представлений у базі втричі меншою кількістю записів за правомірні позови. Задля уникнення проблем моделювання на незбалансованих даних були застосовані методи передискретизації, зокрема випадковий оверсемплінг та SMOTE. Оцінка результатів, отриманих на різних вибірках, показує, що методи балансування дозволяють суттєво покращити якість класифікації. У ході дослідження на отриманих наборах даних були побудовані класифікатори на основі логістичної регресії, методу опорних векторів, алгоритму k-найближчих сусідів, Байєсівського класифікатора, дерева рішень, випадкового лісу та нейронної мережі персептронного типу. Порівняльний аналіз показників якості побудованих класифікаторів допоміг визначити найкращі методи для виявлення шахрайських претензій. Для обох наборів даних такими методами були визнані логістична регресія та нейронна мережа, які мають високий рівень виявлення шахрайських випадків у поєднанні з належною загальною прогностичною силою моделі. Solving classification problems using machine learning methods, data scientists often face the problem of data imbalances. Class imbalance is common in financial sector, in particular for the task of fraud detection in car insurance. Training models on unbalanced data can lead to misclassifications and large numbers of false positives due to the tendency of the model to classify observed cases as the majority class. This paper deals with the study of ways to solve the problem of class imbalance in the task of insurance claims classifying. To solve this problem, a database in the field of auto insurance was used, which provide information about the presence or absence of fraudulent customer claims. The class of fraudulent cases that interests us the most is represented in the database by three times fewer records than for legitimate claims. Oversampling techniques including random oversampling and SMOTE were applied to avoid modeling problems on unbalanced data. Evaluation of the results obtained on different samples indicates that balancing methods can significantly improve the quality of the classification. Logistic regression, support vector machine, k-nearest neighbors classifier, Bayesian classifier, decision tree, random forest and perceptron type neural network were built on the obtained datasets. A comparative analysis of the models’ qualities allowed to determine the best methods for detecting fraudulent claims. For both datasets, logistic regression and neural network were recognized as such methods, having a high level of fraud detection combined with a good predictive power of the model.Item Геомаркетинговий підхід в задачі розміщення: порівняльний аналіз трьох алгоритмів кластеризації(ДВНЗ «Київський національний економічний університет імені Вадима Гетьмана», 2019) Кононова, Катерина Ю.; Kononova, Kateryna; Кононова, Екатерина Ю.; Кострінчук, Денис О.; Kostrinchuk, Denis; Костринчук, Денис А.В результаті дослідження було вирішено задачу оптимізації мережі кав’ярень у місті Харків, яка полягала в тому, щоб знайти такі місця розташування торгівельних точок, щоб мережа кав’ярень рівномірно покривала усе місто, а окремі кав’ярні знаходилися на прийнятній відстані одна від одної та забезпечували максимальний трафік потенційних клієнтів. Для вирішення задачі було використано геомаркетинговий підхід, що дозволяє порядз маркетинговою інформацією враховувати просторові дані. Розроблено низку моделей кластеризаціїта проведено серію експериментів із кожною з них. Аналіз результатів експериментів показав, що базова модель хоча і задовольняє вимогам рівномірного покриття міста мережею кав’ярень, але вона не враховує характеристики потенційних клієнтів. Багатофакторнамодель, навпаки, хоча і дозволяє враху-вати маркетингову інформацію, проте не спрямована на пошук кластерів, для яких з центру до околиці можна дістатися за прийнятний час. В результаті застосування зваженої однофакторної моделі було проведено кластеризацію окремо для різних сегментів потенційних клієнтів, для кожного з яких була вирішена задача розміщення. Результати отриманої кластеризації задовольнили усім потребам бізнесу. В результаті заміни метрики Хаверсіна для підрахунку фактичної відстані між двомакоординатами на дані API Google maps було враховано особливості міського трафіку та уточнено межі кластерів. As a result of the study, the problem of placing a coffee shop network in Kharkiv was solved in order to find such locations for outlets so that the coffee shop network evenly covers the entire city and different cafes are at an acceptable distance from each other and provide maximum traffic of potential customers.To solve the problem, a geomarketing approach was used which along with marketing information allows taking spatial data into account. A number of clustering models were developed and a series of experiments were conducted with eachof them.The analysis of the results of experiments showed that thebasic modelalthough meets the requirements of uniform coverage of the city with a chain of coffee houses, but it does not take into consideration the characteristics of potential customers. The multifactor model, on the contrary, although allows taking into account marketing information, but it is not aimed at finding clusters for which you can get from the center to the outskirts in acceptable time. As a result of applying a weighted one-factor model, clustering was carried out separately for different segments of potential customers, for each of them the placement problem was solved. The results of clustering satisfied all needs of the business. After replacement the way of calculating distance between two coordinates fromHaversine distance metric toGoogle maps API data, the urban traffic features were taken into account and clusters boundaries were refined. В результате исследования была решена задача размещения сети кофеен в городе Харьков, которая заключалась в том, чтобы найти такие места расположения торговых точек, чтобы сеть кофеенравномерно покрывала весь город, а отдельные кафе находились на приемлемом расстоянии друг от друга и обеспечивали максимальный трафик потенциальных клиентов. Для решения задачи был использован геомаркетинговый подход, позволяющий наряду с маркетинговой информацией учитывать пространственные данные. Разработан ряд моделей кластери-зации и проведены серии экспериментов с каждой из них. Анализ результатов экспериментов показал, что базовая модель хотя и удовлетворяет требованиям равномерного покрытия города сетью кофеен, но она не учитывает характеристики потенциальных клиентов. Многофакторная модель, наоборот, хотя и позволяет учесть маркетинговую информацию, однако не направлена на поиск кластеров, для которых из центра до окраины можно добраться за приемлемое время. В результате применения взвешенной однофакторной модели была проведена кластеризация отдельно для различных сегментов потенциальных клиентов, для каждого из которых была решена задача размещения. Результаты полученной кластеризации удовлетворили всем потребностям бизнеса. В результате замены метрики Хаверсина для подсчета реального расстояния между двумя координатами на данные API Google maps были учтены особенности городского трафика и уточнены границы кластеров.Item Дослідження поведінкових особливостей трейдерів: поєднання методів експериментальної економіки та технологій машинного навчання(ДВНЗ «Київський національний економічний університет імені Вадима Гетьмана», 2018) Кононова, Катерина Ю.; Kononova, Kateryna; Кононова, Екатерина Ю.; Дек, Антон О.; Dek, AntonПроведено дослідження поведінкових особливостей трейдерів з використанням методів експериментальної економіки та технологій машинного навчання. Для аналізу впливу раціональності на прибутковість трейдерів було зібрано інформацію про транзакції купівлі‐продажу криптовалют обсягом близько 715 000 записів. З трейдерами, які уклали більше 15 угод протягом досліджуваного періоду, було проведено «Гру на відгадування». Виходячи з відповідей трейдерів та інформації про їх угоди, було виявлено 5 типів трейдерів, зокрема: «жартівники», «беззбиткові трейдери 0‐го ступеня», «неприбуткові трейдери 1‐го ступеня», «прибуткові трейдери 3‐го ступеня» та «професіонали». Аналіз результатів показав, що в цілому далекоглядніші трейдери отримують більший прибуток. У той же час «жартівники» характеризуються також найрізноманітнішими стратегіями, які можуть приносити прибутки. Не дивлячись на те, що середня відповідь «професіоналів» була близькою до виграшного числа, дисперсія відповідей для цього кластеру була занадто великою. Цей результат опосередковано підтверджує гіпотезу Кейнса про те, що професіонали не менш, ніж інші учасники ринку, схильні до ірраціональної поведінки. Запропоноване дослідження актуалізує проблематику розробки теоретичних та емпіричних моделей прогнозування ринку криптовалют з урахуванням ступеня раціональності трейдерів. The study of the traders’ behavioral characteristics was carried out using the methods of experimental economics and machine learning technologies. In order to analyze the impact of level of reasoning on the traders’ profitability, we collected information on cryptocurrencies purchase and sale transactions with a volume of about 715 000 records. Traders, who made more than 15 transactions during the analyzed period, were invited to take part in «Guessing Game». Based on the traders’ answers and information on their transactions, five types of traders were identified, in particular: «Jokers», «Breakeven traders of the 0th level», «Unprofitable traders of the 1st level», «Profitable traders of the 3rd level» and «Professionals». Analysis of the results showed that, in general, more far‐sighted traders make greater profit. At the same time, «Jokers» are also characterized by a wide variety of strategies, including profitable. Despite the fact that the average guess of «Professionals» was close to the winning value, the variance of guesses for this cluster turned out to be very large. This result indirectly confirms Keynes’s hypothesis that professionals tend to irrational behavior not less than other market agents. The proposed research actualizes the problems of developing theoretical and empirical models, which are taking into account the degree of traders’ rationality for predicting the cryptocurrency market. Проведено исследование поведенческих особенностей трейдеров с использованием методов экспериментальной экономики и технологий машинного обучения. Для анализа влияния рациональности на прибыльность трейдеров была собрана информация о транзакциях купли‐продажи криптовалют объемом около 715 000 записей. С трейдерами, которые заключили более 15 сделок в течение исследуемого периода, была проведена «Игра на отгадывание». Исходя из ответов трейдеров и информации об их сделках, было выявлено 5 типов трейдеров, в частности: «шутники», «безубыточные трейдеры 0‐го уровня», «неприбыльные трейдеры 1‐го уровня», «прибыльные трейдеры 3‐го уровня» и «профессионалы». Анализ результатов показал, что в целом более дальновидные трейдеры получают большую прибыль. В то же время «шутники» характеризуются также самыми разнообразными стратегиями, в том числе и доходными. Несмотря на то, что средний ответ «профессионалов» был близким к выигрышному значению, дисперсия ответов для этого кластера оказалась очень большой. Этот результат косвенно подтверждает гипотезу Кейнса о том, что профессионалы не менее, чем другие участники рынка, подвержены иррациональному поведению. Предложенное исследование актуализирует проблематику разработки теоретических и эмпирических моделей прогнозирования рынка криптовалют с учетом степени рациональности трейдеров.Item Нейросетевой подход к моделированию поведения: анализ результатов эксперимента «Общественное благо»(ДВНЗ «Київський національний університет імені Вадима Гетьмана», 2015) Меркулова, Т. В.; Merkulova, Tamara; Кононова, Е. Ю.; Kononova, KaterynaЦелью исследования является нейросетевое моделирование типов поведения людей на основе данных лабораторных экспериментов «Общественное благо» (PG game) и интерпретация результатов с точки зрения поведенческих гипотез реципрокности и фри-райдерства. Исследование основано на методах экспериментальной экономики и кластеризации с помощью карт Кохонена. Информационной базой моделирования являются данные, полученные в результате экспериментов PG game в Украине. В статье рассмотрены основные допущения модели поведения человека в экономической теории и их экспериментальная проверка; базовая постановка эксперимента «Общественное благо» и обзор его результатов; кластеризация стратегий и выделение типов поведения на основе данных экспериментов PG, проведенных в Украине, и интерпретация результатов. Кластеризация исходов позволила выделить типы стратегий, которые отличаются вкладами и штрафами участников: стратегии сотрудничества, наказания и уклонения. Было показано, что стратегия сотрудничества является, во-первых, наиболее распространенной, во-вторых, наиболее устойчивой. Выделены типы поведения, которые характеризуются изменением стратегии участников. Тип поведения, основанный на сочетании стратегий сотрудничества и наказания, характеризует реакцию ориентированных на сотрудничество агентов, разочарованных фри-райдерским поведением партнеров. Тип поведения, сочетающий стратегии сотрудничества и уклонения, демонстрирует влияние наказания на поведение участников, склонных к уклонению от сотрудничества (фри-райдерству). Сравнительный анализ результатов кластеризации исходов и агентов позволил провести более тонкую структуризацию участников по поведенческим свойствам. Результаты анализа подтверждают гипотезы реципрокности и позитивного влияния наказания на сотрудничество, что согласуется с выводами зарубежных исследований.Item Оценка доверия: теоретические модели и результаты эмпирического исследования на примере социальных сетей(ДВНЗ «Київський національний економічний університет імені Вадима Гетьмана», 2017) Кононова, Екатерина Ю.; Kononova, Kateryna; Кононова, Катерина Ю.В условиях перехода к е-обществу количество ежедневно генерируемой информации растет стремительными темпами, при этом оценивать ее качество и достоверность становится все сложнее. Это ведет к формированию повышенного спроса на методы и модели оценки доверия как к источникам информации, так и к самой информации. К понятию доверия в последние годы обращались ученые из различных научных сфер – психологии, социологии, экономики, информатики. Однако, несмотря на растущее количество научных публикаций в данном направлении, исследования остаются фрагментарными и не дают целостного представления об особенностях формирования и распространения доверия в обществе. Новое междисциплинарное направление – анализ данных социальных медиа, в рамках которого исследуются профили и поведение пользователей онлайновых социальных сетей, – охватывает такие области как машинное обучение, искусственный интеллект, визуализация данных, алгоритмы поиска информации, лингвистика и масштабные вычисления. Принимая во внимание тот факт, что пользователями социальных сетей сегодня является более четверти населения планеты, социальные данные представляют собой репрезентативный срез общества и могут составить основу для построения и верификации моделей оценки доверия. Целью исследования является проверка теоретических предположений моделей оценки доверия на основе анализа поведения пользователей и структуры социальных сетей. В статье проанализировано распределение пользователей, их сообщений, друзей и групп, описаны нетипичные примеры. В результате кластеризации пользователей идентифицированы типы их поведения: выявлены кластера «писателей», «распространителей» информации и ее потребителей – «читателей», а также кластер «малоактивных» пользователей. Анализ кластеров показал, что зачастую генераторы контента не являются основным каналом распространения информации, что противоречит теоретическим предположениям модели оценки доверия. Однако исследование структуры неявных связей между агентами свидетельствует в пользу гипотезы о том, что наиболее активно пишущие пользователи имеют наибольшее число контактов и пользуются наибольшим доверием.Item Прогнозування фінансових рядів: семантичний аналіз економічних новин(ДВНЗ «Київський національний університет імені Вадима Гетьмана», 2016) Кононова, Катерина Ю.; Kononova, Kateryna; Кононова, Екатерина Ю.; Дек, Антон О.; Dek, AntonУ роботі запропоновано метод прогнозування фінансових часових рядів з урахуванням семантики новинних стрічок. Для семантичного аналізу економічних новин на основі словника Loughran McDonald Master Dictionary було сформовано вибірку негативних і позитивних з фінансової точки зору слів. До вибірки увійшли слова з високою частотою згадування у новинах фінансових ринків; для однокореневих слів була залишена тільки загальна частина, що дозволило охопити одним запитом кілька слів. В якості інструментарію прогнозування використовувалися нейронні мережі. Для автоматизації процесу видобування економічної інформації з новин у програмному середовищі MATLAB Simulink розроблений скрипт, який аналізує новини компанії, спираючись на сформований словник. Проведене експериментальне дослідження з різними архітектурами нейронних мереж продемонструвало високу адекватність побудованих моделей та підтвердило доцільність використання інформації з новинних стрічок для прогнозування котирувань акцій.