Selected Projects of the WHO: the adoption of the elements of governance

Como se mencionó anteriormente, la revisión de la literatura estará enfocada en las metodologías utilizadas para el diseño de modelos de otorgamiento crediticio en instituciones financieras. La revisión se realizó teniendo en cuenta los avances realizados para esta problemática a nivel internacional, en Latinoamérica, y en Colombia. A continuación, se presentan los resultados de dicha revisión.

En primer lugar, (Lessmann et al. (2015), realizaron un análisis comparativo de los diferentes algoritmos y modelos utilizados para el problema de clasificación derivado del credit scoring. En él, probaron más de 40 modelos tanto paramétricos como no paramétricos, incluyendo variantes de cada uno vía modificaciones de parámetros e hiper- parámetros, con la finalidad de dar un resultado holístico sobre qué método es más efectivo para predecir si un cliente pagará o no, un crédito en el tiempo estipulado. Los autores encontraron que los métodos en donde se genera un metamodelo (una estructura a base de modelos individuales) son los que realizan las predicciones más acertadas. Sin embargo, indican que los clasificadores individuales (como la regresión logística, las redes neuronales y los árboles de decisión) generan de igual forma buenos resultados. Lo anterior, brinda un panorama inicial de cuales algoritmos y/o modelos se pueden aplicar en la resolución del problema de CREDIT SCORING de FETRABUV.

En ese orden de ideas, Dastile, Celik, & Potsane (2020), realiza una revisión de literatura actualizada al problema de CREDIT SCORING, en donde realiza la comparación de diferentes modelos estadísticos tradicionales, algoritmos de machine learning y algoritmos de deep learning, en un problema de clasificación binario asociado al otorgamiento de créditos. Los autores resaltas que el proceso de encontrar el mejor modelo para este problema aun no se ha alcanzado. Sin embargo, se encontró que los modelos tipo ensemble y los modelos de deep learning obtuvieron mejores resultados. Además, resalta el poco uso de modelos como redes neuronales convolucionales y/o recurrentes en la aplicación a este problema. Por último, indica las limitaciones de la literatura en este problema, lo cual incluye la falta de análisis exploratorio de los datos, la exclusión de variables macroeconómicas como datos de entrada, y el análisis de correlación entre las variables predictoras. Lo cual, indica una brecha de investigación que se pudo abordar parcialmente con el presente trabajo.

De acuerdo con lo anterior, Moscatelli, Narizzano, Parlapiano, & Viggiano (2019), propone el uso de variables macroeconómicas en conjunto con las variables internas de un grupo de entidades financieras de Italia para abordar el problema de CREDIT SCORING, mediante la comparación de modelos basados en conjuntos de árboles de decisiones, y modelos estadísticos de regresión (logística y lineal). Encontrando que los modelos de machine learning presentan mayor capacidad predictiva, sin embargo, si se desea tener transparencia en la influencia de las variables como lo hacen los modelos estadísticos, los autores proponen utilizar los modelos de machine learning como benchmarking para los modelos estadísticos y así, afinar su capacidad predictiva.

Por otro lado, Pławiak, Abdar, Pławiak, Makarenkov, & Acharya (2020), propone una metodología muy completa para el proceso de selección del modelo a aplicar en un problema de CREDIT SCORING, incluyendo la optimización de parámetros del modelo final y del proceso de validación cruzada. Insumos útiles para la aplicación de búsqueda de

hiperparámetros que se implementó en la Sección 5.3.No obstante, se encontraron modelos que los autores de la revisión mostrada anteriormente no abordaron, como lo que propone Mancisidor, Kampffmeyer, Aas, & Jenssen (2020), en donde usan redes neuronales generativas para abordar el problema del CREDIT SCORING como uno de aprendizaje semi supervisado ya que se genera parte de la información a partir del mismo modelo. Así como lo propuesto por Fonseca, Wanke, & Correa (2020), en donde hacen uso de redes neuronales y lógica difusa para estimar la probabilidad de incumplimiento de una operación de crédito.

Por otro lado, la metodología del presente proyecto fue alineada con lo propuesto por Lee & Shin (2020), debido a que el esquema propuesto en la Sección 5, es similar al propuesto por los autores.

Ahora bien, el estudio brindado por los autores anteriormente expuesto se realizó con información pública de entidades del sector bancario, sin embargo, FETRABUV no pertenece a dicho sector por lo que es necesario buscar cómo se ha abordado el problema en un contexto similar al de la organización. En ese sentido, (Bennouna & Tkiouat)(2019), proponen una solución al problema de CREDIT SCORING en una institución microfinanciera (IMF), la cual, es una mejor aproximación al contexto de FETRABUV por cuanto la entidad no sólo ofrece servicios de crédito de libranza, sino también servicios financieros con otros medios de pago. En este estudio, los autores propusieron una arquitectura que mezcla análisis de componentes principales para la selección de variables relevantes en el modelo, y una regresión logística binaria para la clasificación de los clientes. No obstante, el modelo presentado por los autores no fue efectivo por cuanto su capacidad predictiva no fue adecuada. Ante esto, los autores comentaron que dicho error de predicción fue producto de la calidad de los datos utilizados ya que no tuvieron acceso a suficientes registros para entrenar su modelo.

Adicionalmente, Rtayli & Enneya (2020), proponen una metodología de selección de variables para un problema de CREDIT SCORING mediante un proceso de implementación que incluye máquinas de vectores de soporte y un modelo de random forest, encontrando una mejora en el desempeño sobre una información en donde la clase no pagadora (default) es muy baja (menor al 0.17% de la información) y, por tanto, los modelos clásicos de machine learning tenían dificultades para predecir esta clase.

De igual forma, Luo, Yan, & Tian (2020), utiliza aprendizaje no supervisado para el proceso de etiquetado de la información y luego aplica una modelo de aprendizaje supervisado para realizar un CREDIT SCORING en una base de datos de créditos no balanceada.

Por otro lado, Puertas Medina & Marti Selva (2013), realizan una comparación entre el modelo paramétrico más utilizado, la regresión logística, y el modelo no paramétrico más utilizado, los árboles de regresión y clasificación (CART por sus siglas en inglés). En el estudio encontraron que los modelos no paramétricos son más eficientes, aunque se comprometa la interpretación de estos. Adicionalmente, hace relevancia a un subproblema que se genera en el uso de algoritmos de clasificación y es el sobre entrenamiento (overfitting), para lo cual se hizo uso de la validación cruzada evitando así que los modelos generados sólo se aprendieran las respuestas, sino que fueran capaces de generalizar para futuros registros.

En adición, Constangioara (2011), abordó el problema del CREDIT SCORING que, si bien lo realizó en una entidad financiera, es válido resaltar que los resultados que el autor encontró aportan significativamente al desarrollo del presente trabajo. El autor resalta la relevancia que hacer uso de metamodelos, como lo encontrado por (Lessmann et al.), mejora significativamente el poder predictivo. Además, demuestra que para su caso aplicado el realizar una transformación de las variables, en este escenario el autor hizo uso del WOE (Weight of Evidence, por sus siglas en inglés), mejoró hasta en un 60% la capacidad predictiva del modelo propuesto en comparación con los modelos tradicionales basados en logit, es decir, aquellos cuya función de enlace es la ecuación de una función logística. Una metodología similar fue implementada por Chen, Yadav, Khan, & Zhu (2020), haciendo uso de variables macroeconómicas para encontrar patrones de influencia del contexto que puedan influir en los comportamientos de pago de los créditos.

En el contexto de Latinoamérica se encuentran diversos trabajos como el de Adriazola Román) (2015) que realiza una regresión logística a una entidad del sector financiero de Chile, o el trabajo de Cantón, Rubio, & Blasco (2010) en donde utilizan la misma técnica para una IMF de Perú. Aquí se puede observar que hacen uso de la regresión logística como técnica para realizar el modelo de predicción de riesgo crediticio, porque esta se acopla a las características del problema (ya que el rango de la variable de respuesta de una regresión logística está entre 0 y 1 lo que es congruente con la probabilidad de incumplimiento de una operación crediticia), así como su fácil interpretación de los parámetros de control y su implementación sencilla en lenguajes de programación de alto o medio nivel.

No obstante, Banda & Garza (2013) aborda la problemática desde otro enfoque, de manera que utiliza técnicas de predicción de la demanda, en concreto el modelo de Holt – Winters, para analizar el riesgo crediticio a partir de los flujos de efectivo esperados del cliente al que se le está otorgando el crédito. La metodología propuesta por los autores si bien es innovadora, no es relevante para el contexto del presente trabajo. Sin embargo, los autores hacen una revisión de literatura de cómo se ha abordado el problema del CREDIT SCORING en las IMF, concluyendo que se necesitan realizar más estudios en este tipo de contextos, lo que representa una brecha de investigación en la cual se intenta aportar con el presenta trabajo.

De igual manera, Beltrán Pascual, Muñoz Martinez, & Muñoz Alamillos (2014) abordan esta problemática en una entidad financiera de Chile, haciendo uso de redes bayesianas, lo que propone una técnica diferente a las vistas anteriormente, sobre todo en el entorno de Latinoamérica. Lo relevante de su aporte es el uso del algoritmo SMOTE (Synthetic Minoritary Over-sampling Technique) a un subproblema que se presentó en la base de datos de entrenamiento ya que existía una mayor proporción de buenos pagadores que de malos pagadores. Haciendo uso de esta técnica, los autores mostraron una mejora en sus resultados sobre todo en la eficacia al momento de clasificar los malos pagadores.

En adición a lo anterior, Song et al. (2020), propone una metodología diferente a la presentada en el párrafo anterior. Los autores proponen el uso de algoritmos de aprendizaje no supervisado para la generación sintética de información. Adicionalmente, propone una metodología transversal para la evaluación holística del desempeño de un modelo de aprendizaje supervisado que incluyó algoritmos genéticos para la optimización de parámetros de este.

Por otra parte, Bravo Roman, Maldonado, & Weber (2009) realizan un aporte a la resolución del problema de CREDIT SCORING ya que proponen una metodología de seguimiento de modelos de predicción de riesgo crediticio basándose en técnicas paramétricas, en concreto la regresión logística, a fin de determinar cuándo es prudente realizar cambios en los parámetros del modelo.

Hasta el momento se ha encontrado que en el entorno internacional se han realizado estudios significativos en la resolución de problemas de CREDIT SCORING. Sin embargo, estos estudios han sido realizados en entidades financieras o del sector bancario. Al buscar estudios sobre cómo han abordado esta problemática en instituciones más pequeñas o en IMF se ha observado que no ofrecen estudios tan amplios ya que los encontrados se enfocan en solucionarlo mediante un modelo de regresión logística.

En Colombia, los avances realizados por autores como (Valencia Echeverri) y (Ochoa, Galeano, & Agudelo), siguen los mismos lineamientos que en el contexto de Latinoamérica. Si bien, las aplicaciones son para entidades del sector financiero, utilizan regresión logística como técnica de implementación. Otro aporte lo realiza (Salazar Villano) el cual, adicional a la implementación de un modelo tipo logit, propone un modelo log-log para la predicción del indicador de cartera vencida, utilizando variables macroeconómicas como entrada para dicho modelo asemejándose a lo propuesto por (Banda & Garza).

Se han avanzado ciertos estudios diferentes a los modelos paramétricos tradicionales como el realizado por (Pérez Ramírez & Fernández Castaño), en donde aplican redes neuronales artificiales, concretamente un perceptrón multicapa y una red neuronal probabilística, a un problema de CREDIT SCORING en una entidad financiera, encontrando que este tipo de metodologías generaron precisiones por encima del 90%.

En ese orden de ideas, Ladino Becerra (2014), realizó una comparación de la eficiencia de las redes neuronales en el problema de CREDIT SCORING contra el modelo paramétrico estándar para este tipo de problemas, la regresión logística. El autor encontró que los modelos basados en redes neuronales tienen un mayor poder de discriminación. Esto, en adición con lo realizado por (Cardona Hernández), quien utilizó árboles de decisión como modelo de predicción del riesgo de crédito, muestra que el uso de modelos no paramétricos es confiable para la solución a este tipo de problemas.

Por último, en el contexto de los fondos de empleados, Alberto & Orozco (2015) realizaron un análisis de varios métodos de clasificación, incluyendo árboles de decisión, redes neuronales y máquinas de vectores de soporte, para resolver este problema. El aporte de los autores es ser pioneros de la solución a este tipo de problemática en el sector solidario, específicamente en fondos de empleados.

Con base en todo lo anterior, se observa que en instituciones internacionales se ha explorado la problemática tratada. En cambio, en Latinoamérica y concretamente en Colombia, existe una oportunidad de implementar diferentes metodologías de clasificación para estimar el nivel de riesgo de crédito de un cliente en IMF, cooperativas o fondos de empleados, teniendo en cuenta metodologías de validación de modelos estandarizadas como la propuesta por (IBM).

En el presente trabajo, se pretenderá abordar diferentes técnicas de clasificación, con una base de datos de entrada pre-procesada con diferentes tipos de técnicas, a fin de ofrecer

un modelo que se adapte al contexto de FETRABUV, teniendo en cuenta tanto eficiencia como interpretación de este.

In document Mapping the elements of governance in international health security. (Page 70-105)