• No results found

Bayesian networks applied to credit scoring problems: A practical application

N/A
N/A
Protected

Academic year: 2021

Share "Bayesian networks applied to credit scoring problems: A practical application"

Copied!
14
0
0

Loading.... (view fulltext now)

Full text

(1)

Cuadernos

de

economía

www.elsevier.es/cesjef

ARTÍCULO

Redes

bayesianas

aplicadas

a

problemas

de

credit

scoring

.

Una

aplicación

práctica

Mauricio

Beltrán

Pascual

a,∗

,

Azahara

Mu˜

noz

Martínez

b

y

Ángel

Mu˜

noz

Alamillos

b

aDepartamentodeEconomíaAplicadayEstadística,FacultaddeCienciasEconómicasyEmpresariales,UNED,Madrid,Espa˜na bFacultaddeCienciasEmpresariales,UniversidadAutónomadeChile,SantiagodeChile,Chile

Recibidoel29deabrilde2013;aceptadoel1dejuliode2013 DisponibleenInternetel30deoctubrede2013

CÓDIGOSJEL C11 PALABRASCLAVE Redesbayesianas; MantodeMarkov; Creditscoring; CurvaROC; Multiclasificadores

Resumen Enesteartículoseabordalaformadeconstruirunclasificadoreficienteatravés deredesbayesianasutilizadasenlamineríadedatosycuyafinalidadesconseguirmás preci-siónqueotrosmodelosempleadosenlosproblemasdecreditscoring.Elenfoquebayesiano, basadoenmodelosdeprobabilidad,emplealateoríadeladecisiónparaelanálisisdelriesgo eligiendoencadasituaciónquesepresentalaacciónquemaximizalautilidadesperada.Usando unamuestradedatosbancariosrealesseconcluyelasuperiorcapacidadpredictiva deestos modelosrespectoalosresultadosobtenidosporotrosmétodosestadísticosparamétricosyno paramétricos.

©2013AsociaciónCuadernosdeEconomía.PublicadoporElsevierEspaña,S.L.Todoslos dere-chosreservados. JELCLASSIFICATION C11 KEYWORD Bayesiansnetworks; Markovblanket; Creditscoring; ROCcurve; Multiclassifiers

Bayesiannetworksappliedtocreditscoringproblems.Apracticalapplication

Abstract ThispaperanalyseshowtobuildanefficientclassifieracrossBayesiansnetworksused indatamining.ThepurposeofusingtheBayesianmodelistoimprovecreditscoringaccuracy. TheBayesianapproach,basedonprobabilitymodels,analysesriskbyusingthedecisiontheory, yieldingasasolutionthatactionthatmaximizestheexpectedutility.Expertassessmentmay beincludedinthemodel.ToshowthesuperiorityoftheBayesianapproach,resultsobtained for real bankdata arecomparedwith thoseobtained withalternativeparametricand non-parametricmodels.

©2013AsociaciónCuadernosdeEconomía.PublishedbyElsevierEspaña,S.L.Allrightsreserved.

Autorparacorrespondencia.

Correoselectrónicos:[email protected], [email protected](M.BeltránPascual).

1.

Introducción

Enesteartículosepresentaunaformadeimplementarun clasificador de préstamos bancarios a través del enfoque bayesiano.Conlainformaciónaportadaporelclienteque solicita el crédito, aplicada a la base de datos histórica 0210-0266/$–seefrontmatter©2013AsociaciónCuadernosdeEconomía.PublicadoporElsevierEspaña,S.L.Todoslosderechosreservados. http://dx.doi.org/10.1016/j.cesjef.2013.07.001

(2)

dequedisponeelbanco,elmodelosugierealgerenteuna primera decisión sobre la aceptación o no de la petición delcliente(modelo decreditscoring).Eneste artículose proponeunsistemadepredicciónqueoptimizaladecisión estadísticaquedeterminalaclasealaquepertenecenlas muestrasoclientes evaluados,siempresinolvidarque los modelosdecreditscoringayudanenunprimermomentoa tomarladecisióndesiconcederonoelcrédito,eincluso permitenjustificarlamisma.Noobstante,juntoasus resul-tados, deben considerarse otras dimensiones cualitativas que necesariamente deben complementar la toma de la decisiónyquenosepuedenestudiarconlosmodelos mate-máticos.

Disponerdeunbuenmétodoquenosayudeatomar deci-sionesmáscorrectaspuedemejorarlaeficaciadelagestión deunaentidadbancaria,siendodeespecialinterésenuna situacióncomolaactual,enlaquealasentidades financie-rasselesestáexigiendounmayoranálisisdelriesgoyuna mejoraenlaeficienciadesugestión.

Las formas de enfrentarse al problema de la clasifica-ciónsonvariadas.Lagrandiversidaddetécnicasexistentes pueden incorporar análisis estadísticos, herramientas de minería de datos o inteligencia artificial con aprendizaje demáquina;latécnicamásclásicaenlosproblemasde cre-ditscoringhasidolaregresiónlogística,quegeneralmente ofrecebuenosresultadosestadísticos.Otroenfoqueclásico essintetizarlainformacióndelabasededatosdeclientesa travésdereglasydeárbolesdedecisión;finalmente,otras aproximacionesmásnovedosasempleadasenlosmodelosde creditscoringsebasanenlaaplicaciónderedesneuronales, implementandoalgoritmosevolutivos,splinesderegresión adaptativa,lasmáquinasdevectoressoporteodelalógica borrosa.Unarevisióndelosmétodoscitados,asícomouna aplicaciónpráctica,podemosencontrarlasenBonillaetal. (2003).

Eneste trabajo seconjuga una adecuada selecciónde variablesyunmétodoeficientedeequilibrarlamuestra,lo que,unidoalaexpresividaddelasredesbayesianas, consti-tuyeunnovedosométododeabordarelproblemadelcredit scoring. Se demuestra la superioridad estadística de este métodoal compararlos resultadosobtenidoscon los pro-venientesdelaaplicacióndeotrosmodelosparamétricosy noparamétricoscomolasredesneuronales,losárbolesde decisión,las máquinasde vectores soporte o la regresión logística;secontrastanasimismolosresultadosdelmodelo propuestoconlosobtenidospor6modelos multiclasificado-resyunmétodoqueincorporaunamatrizdecoste.

Losresultadosdelmodelopropuestoseanalizanconlos datosoriginales,muestradesbalanceada,yconlamuestra balanceadaatravésdelalgoritmoSMOTE(Synthetic Mino-ritaryOver-samplingTechnique)originariodeChawlaetal. (2002)ydelmétododelsubmuestreoequilibradodelCubo, propuestoporDevilleyTillé(2004).Paralarealizaciónde este trabajo se ha dispuesto de una parte de la base dedatosdelosclientesdeunaentidadbancariarealquehan solicitadouncréditoenundeterminadoperíododetiempo. Acontinuacióny,enprimerlugar,seexponendeforma somera losmétodosyredes bayesianasasí comolos prin-cipales algoritmos para su aprendizaje tanto de la parte cuantitativa como cualitativa; en la tercera sección se abordan2problemasfundamentalesparaelbuen compor-tamientode unclasificador:la seleccióndevariablesyel

balanceodelamuestra.Posteriormente,enlacuarta sec-ción sepresentanlos resultadosobtenidoscomparándolos conmúltiplesmétodosyalgoritmosdeclasificación. Final-mente,seofrecenlasconclusionesdeesteestudio.

2.

Métodos

bayesianos

Las situaciones enlas que lossereshumanos toman deci-sionessepuedenclasificarsegúnelconocimientoycontrol quesetengasobrelasvariablesqueintervienenoinfluyen enelproblemaen3categorías:certeza,riesgo(seconoceel problema,seconocenlasposiblessoluciones,noseconocen concertezalosresultadosquepuedenarrojar,perosíla pro-babilidaddequeocurracadaresultado)eincertidumbre(se poseeinformacióndeficienteparatomarladecisión,nose tienenningúncontrolsobrelasituación,noseconocecómo puedevariarolainteraccióndelavariablesdelproblema, sepuedenplanteardiferentesalternativasdesoluciónpero no se le puede asignar probabilidad a los resultados que arrojen)4.Enla«teoríadeladecisión»sueleademás clasi-ficarselaincertidumbrecomoestructurada(nosesabequé puedepasarentrediferentesalternativas,perosíseconoce qué puedeocurrir entrevarias posibilidades)yno estruc-turada(nosesabe quépuedeocurrirnilasprobabilidades paralasposiblessoluciones).

Elpasodesituacionesdeincertidumbreasituacionesde riesgo,esdecir,lacuantificacióndelaprobabilidaddeque ocurra unadeterminada solución, esde vital importancia enlatomadedecisioneseconómicas.Encasoscomoelque nosocupaentra˜naladiferenciaentreeléxitooelfracaso delaempresa,yaquelaprincipalactividaddeunaentidad bancariaesdarcréditosaclientes,ysiestosnoson devuel-tos laquiebradedicha entidadesinminente; porello, la disponibilidaddeunbuenmecanismoqueaventurela pro-babilidaddequeunclientedevuelvauncréditoesdecapital interésparaunaentidadfinanciera;este mecanismodebe serademásdeaccesorelativamentesencillo(muchospuntos deventaoclasificacióndirigidosporpersonalno especial-mentecualificado),sinperjuiciodequeincorporemódulos demayorcomplejidadconaccesoaloscentrosdedirección opuntosenlosquesetomenlasúltimasomásimportantes decisiones.

Los métodos y técnicasbayesianos aportan estas utili-dades;sepuedenconsiderardeconstrucción sencilla,con unasemánticaclaraytienenunenfoquesólidoyelegante; hanpresentadotradicionalmenteelproblemadesuelevado costecomputacional, problemaqueel avancetecnológico estácontribuyendoaresolverdeformarápidayeficaz.

Losmodelos bayesianossirventanto pararesolver pro-blemasdesdeunaperspectivadescriptivacomopredictiva. Comométododescriptivosecentranendescubrirlas rela-ciones de dependencia/independencia. Desde esta óptica se puede afirmarque a veces complementan y/o incluso superan alasreglasdeasociación. Encuantoalafunción

4En1921sepublicaronlostrabajosdeKeynesyKnigth(ATreatise

onProbability,CambridgeUniversity)ydeKnight(Risk,Uncertainty, andProfit,Boston,MA),quedistinguieronconnitidezlosconceptos deriesgo,susceptibledemediciónaldisponerdeunadistribución deprobabilidad,ydeincertidumbre,cuandonosepuedeasignar probabilidadalossucesos.

(3)

predictiva,secircunscribea lastécnicasbayesianascomo métodosdeclasificación.

Mitchell (1997)nossugiere 2 razonesdeque los méto-dosbayesianosseanalgunasdelastécnicasquemássehan utilizadoenlosproblemasdeinteligenciaartificial,el apren-dizajeautomáticoylamineríadedatos:

1. Constituyenunmétodomuyválidoyprácticopara rea-lizar inferencias con losdatosque disponemos, loque implicainducirmodelosprobabilísticosque,unavez cal-culados,sepuedenutilizarconotrastécnicasdeminería dedatos.

2. Sonextremadamenteútilesenlacomprensión deotras técnicasdeinteligenciaartificialymineríadedatosque notrabajanconlasprobabilidadesdelasquenosdotan lastécnicasbayesianas.Estacombinacióndemétodoses muyprovechosaparaoptimizarlassolucionesdealgunos problemasplanteadosenlamineríadedatos.

2.1. TeoremadeBayesehipótesismaximuma posteriori

Paracomprenderestastécnicasbayesianasvamosaempezar conelteoremadeBayes.Definamoslassiguientes expresio-nes:

• P(h)eslaprobabilidadaprioridequesecumplala hipó-tesis h. Estaprobabilidadcontieneel conocimientoque tenemosdequelahipótesishescorrecta.

• P(h/D)eslaprobabilidadaposterioridequesecumplala hipótesishunavezconocidoslosdatosD.Estaexpresión reflejalainfluenciaquetienenlosdatosobservadossobre lahipótesish.

• P(D/h)eslaprobabilidaddequelosdatosDsean obser-vadosenunescenarioenelcasodequelahipótesishsea correcta. Sabemosque: P(h∩D)=P(h)∗P(D/ h))=P(D)∗P(h/D) (2.1) Porlotanto: P(h/D) aposteriori = P(h) apriori∗ P(D/ h) P(D) Factordecorrección (2.2) ObservandolaexpresióndelteoremadeBayessabemos queP(h/D)aumentasiseincrementaP(h)yP(D/h)o dismi-nuyeP(D).

Comoyadisponemosdelafórmulaadecuadaquenosda laprobabilidadaposteriori,estamosinteresadosahoraen obtenerlahipótesis másprobable,ohipótesis MAP (maxi-mumaposteriori),unavezquesehanobservadolosdatos.

Laexpresión2.2lapodemosescribirahoracomo:

hMAP =argmaxhP(h/D)=argmax[P(h)∗P(D/ h)/P(D)] (2.3)

YalserP(D)lamismaentodaslashipótesis,laobtención delmáximosecalculaprescindiendodeestetérmino:

hMAP =argmaxhP(h)∗P(D/ h) (2.4)

hMAPeslahipótesismásprobable,dadoslosdatos

obser-vados,P(h/D). Variable clase Atributo 2 Atributo n Atributo 1

Figura1 EstructuraNaïveBaayes.

En los problemas de clasificación disponemos de una variableclase (C) y un conjunto de variables predictoras oatributos que denominaremos A1, A2, ...,An.Con estas

especificaciones el teorema de Bayes tiene la siguiente expresión:

P(C/A1,A2,...An)=

P(C)P(A1,A2,...An/C) P(A1,A2,...An)

(2.5) Enlosprocedimientosbayesianoslahipótesismás plausi-bleeslaquetienelamáximaprobabilidadaposterioridados losatributos(hipótesisMAP),cuyaexpresióneslasiguiente:

CMAP=argmax C∈˝c P(A1,A2,...An) =argmax C∈˝c P(c)P(A1,A2,...An/c) P(A1,A2,...An) =argmax C˝c P(c)P(A1,A2,...An/c) (2.6)

Dondec representael conjuntodevaloresquepuede

tomarlavariableC.

En el último paso se ha eliminado el denominador, debidoaqueseríaelmismoparatodaslascategoríasdela variableC.

Estemétodosencilloyclaro poseeunproblemaquees la complejidad computacional debido a que necesitamos trabajarcondistribucionesdeprobabilidadqueinvolucran muchasvariables,loqueenlamayoríadeloscasosresulta inmanejable.

2.2. ClasificadorNaïveBayes

Eldesarrollodeestefamosoclasificador,incluidoenlagran mayoría de paquetes informáticos, se encuentra desarro-lladoenDudayHart(1973)yenLangleyetal.(1992).

Este método parte de la suposición de que todos los atributossonindependientesconocidoelvalordela varia-ble clase. Este supuesto es poco realista en la mayoría de los casos, pero aun así, en muchos casos es uno de los más competitivos comparado con otras técnicas, como las redes neuronales o los árboles de clasificación (fig.1).

La estimación de los parámetros en este método ----es decir,la clase o valor a devolver---- será la resultante de aplicarlasiguientefórmula:

cMAP =argmax C∈˝c P(c)P(A1,A2,...An/c) =argmax C∈˝c P(c)˘ i=1P(Ai/c) (2.7)

(4)

Dadoslosdatosdeentrenamiento,serecorrentodosesos datosyse computa laclasificación decada uno deellos, obteniendoP(Cj)paracadaclasificaciónposible.

Cuandolosatributos sondiscretos, laestimación dela probabilidadcondicionalseextraedelabase dedatos, ya quesonlas frecuencias deaparición.Sin(xi,Pa(xi))

repre-sentaal númeroderegistrosdenuestra basede datosen elquelavariableXitomaelvalorxiyalospadresdeXilo

denotamosporPa(xi),entonceslafórmuladela

probabili-dadcondicionalvienedeterminadaporelcocienteentreel númerodecasosfavorablesyeldecasosposibles:

P(xi/Pa(xi))=

n(x,Pa(xi)) n(Pa(xi))

(2.8) Cuandolasmuestrassonpeque˜nasosiserealizan mues-treosenlosqueloscrucesdedimensionessonfrecuentes,es muyprobablequelosresultadosobtenidosseanmuy dudo-sos.Paraatenuaresteproblemaexistenprocedimientosde estimadoresbasadosensuavizados.Unodelosmás conoci-doseselestimadorbasadoenlasucesióndeLaplace,que vienedefinidoporlasiguientefórmula:

P(xi/Pa(xi))=

n(xi,Pa(xi))+1 n(Pa(xi))+|alt|

(2.9) Ahoralaestimacióndelaprobabilidadvieneexpresada porelnúmerodecasosfavorables+1divididaporeldecasos totalesmáselnúmerodeposibilidadesoalternativas.

Estaestimaciónasumeunadistribuciónaprioriuniforme ynopuedeajustarseanuestrasnecesidadessiesque que-remos suavizar más o menos la probabilidad. Existe otra formade resolver el cálculo de la probabilidad: a través delm-estimador,quenoesmásqueunageneralizaciónde la corrección de Laplace. Su expresión matemática viene representadapor:

P(xi/Pa(xi))=

n(xi,Pa(xi))+mfPriori(C) n(Pa(xi))+m

(2.10) Ahora el numerador son los casos favorables más una constantemmultiplicadaporla frecuenciadeaparicióna prioridelevento,yeldenominadoreselnúmerodecasos totalesmáslaconstantem.

Cuandolosdatossoncontinuos,elestimadorNaïveBayes suponequeladistribucióndeesta variablecontinua sigue unadistribución normal.La mediaaritmética yla desvia-cióntípicaquecaracterizanaestadistribucióngaussianase estimanatravésdelosdatosmuestrales.

P(Ai/c) ∝ N(,)= 1 √ 2exp −(x−) 2 22 (2.11)

3.

Redes

bayesianas

Lasredesbayesianasseconocenenlaliteraturaexistente conotros nombres,como redes causales oredes causales probabilísticas,redesdecreencia,sistemasprobabilísticos, sistemas expertos bayesianos,o también como diagramas de influencia. Las redes bayesianas son métodos estadís-ticos que representan la incertidumbre a través de las relacionesdeindependenciacondicionalqueseestablecen entre ellas (Edwards, 1998). Este tipo de redes codifica la incertidumbre asociada a cada variable por medio de probabilidades. Kadie et al. (2001) afirman que una red

C

A

H

T

B

N

L

I

Figura2 Estructuradeunaredbayesiana.

bayesiana es un conjunto de variables, una estructura gráfica conectada a estas variables y un conjunto de distribucionesdeprobabilidad.

Estas redes probabilísticas automatizan el proceso de modelizaciónprobabilísticoutilizandotodalaexpresividad delosgrafospararepresentarlasdependenciasylateoría delaprobabilidadparacuantificaresasrelaciones.Enesta unión se realiza de forma eficiente el aprendizaje auto-mático, comola inferenciacon losdatosylainformación disponible

Unaredbayesianaquedaespecificadaformalmentepor unadupla B=(G,),dondeG esungrafo dirigidoacíclico (GDA)yeselconjuntodedistribucionesdeprobabilidad. Definimos un grafo como unpar G=(V,E), donde Ves un conjuntofinitodevérticesnodosovariablesyEesun sub-conjuntodelproductocartesianoV×Vdeparesordenados denodosquellamamosenlacesoaristas(fig.2).

Elgrafoesdirigidoyacíclico.Dirigidoporquelos enla-cesentrelosvérticesdelaestructuraestánorientados;por ejemplo,si(A,B)ЄEpero(B,A)noЄEdiremosquehayun enlaceounarcoentrelosnodosylorepresentamoscomo A→B.Cuandosedicequeesacíclicoesporquenopueden existir ciclos o bucles en el grafo, lo que significaque si empezamosarecorreruncaminodesdeunnodonosepuede regresaralpuntodepartida.

LasconexionesdeltipoA→Bindicandependenciao rele-vanciadirectaentrelasvariables;enestecasoseindicaque BdependedeAoqueAeslacausadeByBeselefectode A.TambiénsedicequeAeselpadreyBelhijo.La ausen-ciadearcosentrelosnodosnosestáaportandounavaliosa información,ya queen este casoel grafo nos informade independenciacondicional.

Laredes bayesianastienenla habilidad decodificar la causalidad entre las variables, por lo que han sido muy utilizadasenelmodeladooenlabúsquedaautomáticade estructuras causales (López et al., 2006). La potencia de las redes bayesianas está en su capacidad de codificar las dependencias/independencias relevantes considerando no solo las dependencias marginales sino

(5)

tambiénlasdependenciascondicionalesentreconjuntosde variables.

Lamayoríadelosautoresafirmanquelasredes bayesia-nastienen2dimensiones:unacuantitativayotracualitativa (Cowelletal.,1999; GarbolinoyTaroni,2002;Nadkarni y Shenoy,2001,2004;MartínezyRodríguez,2003).

Losgrafosdefinenunmodeloprobabilísticoconlas mis-masdependenciasutilizandounafactorizaciónmedianteel productodevariasfuncionesdeprobabilidadcondicionada:

p(xi,x2,...xn)= n ˘

i=1p(xi|padres(xi)) (3.1)

padres(xi)sonlasvariablespredecesorasinmediatasde

lavariablexienlared,precisamentep(xipadres(xi))son

losvaloresque sealmacenanenelnodo queprecedeala variablexi

Atravésdelafactorización,lasindependenciasdelgrafo sontraducidasalmodeloprobabilísticodeformamuy prác-tica.

Las redesbayesianasrepresentan el conocimiento cua-litativo del modelo mediante el grafo dirigido acíclico. Estarepresentacióndelconocimientoestáarticuladaenla definicióndelarelacionesdedependencia/independencia. Utilizarlarepresentacióngráficaatravésdelgrafohaceque lasredesbayesianasseanunaherramientamuypoderosay atractivacomorepresentacióndelconocimiento.

Estasredesbayesianasnosolomodelancualitativamente lasrelaciones,sinoquetambiéncuantifican yexpresande formanuméricalafuerzaexistenteentrelasvariables. Exis-ten3elementosquecaracterizanladimensióncuantitativa delaredbayesiana:a)el conceptodeprobabilidad,como medidadelgradodecreenciasubjetivarelativaaunevento; b)unconjunto defunciones deprobabilidadcondicionada quedefinenacadavariableenel modelo,yc)elteorema deBayes,queseutilizaparaactualizarlasprobabilidades conbasealaexperiencia.

Lafuerzadelasrelacionesentrelasvariablesestá espe-cificada en las distribuciones de probabilidad como una medida dela creencia quetenemos sobreesas relaciones enelmodelo.

Los diferentestipos deredes bayesianasvienen deter-minadasporelcarácterdiscretoocontinuodelavariables involucradasenelmodelo.

Cuando las variables siguen una distribución normal multivariante N(␮,) decimos que la red es gaussiana, y entonceslafuncióndedensidadconjuntavienedeterminada porlasiguienteexpresión:

f(x)=(2)−n/2||−1/2exp −1/2 (x−)T−1(x−) ,(3.2)

dondeeselvectordemediasn-dimensional,esla matrizdecovarianzasn×n,||eseldeterminantede yTdenotalatraspuestade.

Otrotipoderedsonlasmultinomiales,dondese consi-dera quetodas las variablesson discretas,lo que implica quetodaslasvariablestienenunnúmerofinitodeposibles estados. También suponemos que las funciones de proba-bilidad de cada variable condicionada a sus predecesores (padres)son tambiénmultinomialesy,por lotanto, están especificadasenlasdiferentescombinacionesdeestadode

las variables involucradas. La reducción de parámetros a estimaresconsiderable.

Lasredesbayesianasmixtassonmuycomplicadasde defi-nir,aunquesehanestudiadocasosparticulares.EnJordan (1998) se describe un ejemplo en el que se permite que unavariablecontinua tengapadres con valoresdiscretos. OtraaplicaciónlaencontramosenCastilloetal.(1998),que describenuncasoutilizandovariablesdiscretasyfunciones beta.

3.1. Algoritmosdeaprendizajeautomático

Sehacomentadoqueparaobtenerunaredbayesianaseha deespecificarunaestructuragráficayunafunciónde pro-babilidadconjunta quevieneespecificada porelproducto delaprobabilidadesdecadanododadossuspadres,loque implicaqueenlamayoríadelasocasionesnoseconocenni laestructuranilas probabilidades.Esta eslarazónporla quesehandesarrolladodiferentesmétodosdeaprendizaje paraobtenerlaredbayesianaconocidoslosdatos.

Las tareas de aprendizaje a las que se enfrentan los diferentes métodos se pueden dividir en un aprendizaje estructuralyunaprendizajeparamétrico.

En el aprendizaje estructural es donde se establecen lasrelacionesdedependenciaqueexistenentrelas varia-blesdelconjuntodedatosparaobtenerelmejorgrafoque representeestasrelaciones.Esteproblema,comoyaseha afirmadoanteriormente,esbastantecomplejo,dadoquela búsquedadelaestructuraque nosrepresentemejora los datosesunproblemaNP-completo,loquelohace compu-tacionalmenteintratablecuandoelnúmerodevariableses grande.Muchasveces sebuscanalgoritmoseficientesque, sibiennosonóptimos,síseaproximanalasoluciónbuscada concostescomputacionalesacotados(Neapolitan,2003).

Básicamente,losmétodos deaprendizaje dela estruc-turasepuedenenglobaren2tipos.Seencuentran,poruna parte, losmétodos que utilizanmétricas de complejidad-bondad de ajuste y algoritmos de búsqueda. La métrica definelacalidaddelaredbayesianaenfuncióndelosdatos yel algoritmo de búsqueda tratará de buscar la red que maximiceesa métricaexplorando todas las posibilidades. Hayquetenerencuentaqueelnúmerodeposibles estruc-turasgráficasaumentaconsiderablementeconelnúmerode variables.Dependiendodelamétricautilizadaydela téc-nicadebúsquedaexisteunaampliagamadeprocedimientos que pueden ir desde métodos voraces simples (Cooper y Herskovitz, 1992) hasta métodos que utilizan algoritmos genéticos(Larra˜nagaetal.,1996).

Otros métodos están basados en test estadísticos para detectarlasposiblesdependencias/independencias presen-tes en los datos, por lo que la red se ajustaría a estas dependenciasdescubiertas.Estosmétodosparecenmás efi-cientesperopuedensermuysensiblesalosfallosenlostest, especialmentecuando en el problema están involucradas muchasvariables(Friedmanetal.,1999).

Tambiénsepuedenutilizarambasestrategiaspara opti-mizarlabúsquedayconstruirelgrafo(Campos,2006).

Eneste trabajo sehanutilizado losalgoritmos de bús-quedaK2,TANyelHC(HillClimbing).ElalgoritmoK2está basadoenlabúsquedayoptimizacióndeunamétrica baye-sianay estáconsiderado como el predecesory fuentede

(6)

inspiraciónparalasgeneracionesposteriores.Elalgoritmo K2realizaunabúsquedavorazmuyeficazparaencontraruna reddecalidadenuntiemporazonable(CooperyHerskovitz, 1992).Elalgoritmodeascensióndecolinasesunalgoritmo desubidaporel máximo gradientequeestá basadoenla definicióndeunavecindad.

El algoritmoTAN (delinglésTree AugmentedNetwork) fue propuesto en 1997 por Friedman et al. (1997). Este algoritmoconsistióenunaadaptacióndelalgoritmoque pro-pusieronChowyLiuen1968.ElTANutilizaelconceptode cantidaddeinformaciónmutuacondicionadaa lavariable clase,enlugardelacantidaddeinformaciónmutua enla quesebasaelalgoritmodeChowyLiu(1968).

DadaslasvariablesdiscretasXeYylaclaseC,lacantidad deinformaciónquelavariableYnosproporcionasobrela variableX dadala variableclase escalculadaa travésde lasiguienteexpresión:

I(X,Y/C)=

x,y,c

p(x,y/c)log p(x,y,c)

p(x/c)p(y/c) (3.3) Cuandoseaprendelaestructuradelárbolentretodoslos atributos,elalgoritmoTANa˜nadelavariableclaseylahace padredetodaslasvariables.

Friedmanetal.(1997)demuestranquesielcontextoen elcuallosdatosdeentrenamientohubieransidogenerados porunaestructuraTAN,elalgoritmovistoanteriormentees asintóticamentecorrecto,lo que significaque sila mues-tra es suficientemente grande el algoritmo recuperará la estructuraquegenerólosdatos.

También se asegura que la estructura de red obtenida contienelamáximaverosimilituddelconjuntodetodaslas posibles estructuras TAN (Hernández Orallo etal., 2004). Porotraparte,lacomplejidaddeestealgoritmoesO(n2·N),

siendonelnúmerodeatributosyNeltama˜nodelconjunto deentrenamiento.

KeoghyPazzani(1999)proponenunalgoritmovorazque aplicaaunaestructuraNaïveBayes.Encadaunodelospasos sea˜nadeunarcoquemejoreenmayormedidaelporcentaje deinstanciasbienclasificadas,manteniendolacondiciónde queenlaestructurafinalcadavariablenotengamásdeun padre.

Unavez conocida la estructuradela redbayesiana, el problema de la estimación de los parámetros de la red se reduce a calcular la función de probabilidad a pos-teriori p(ϑG/D, Gh), donde D representa el conjunto de

datosde entrenamiento. Los parámetrosconsisten en las probabilidadesaprioridelosnodosraízylas probabilida-descondicionalesdelas demásvariables,dadossus nodos padres.

La estimación de parámetros de la red bayesiana se encuentra en bastantes documentos, algunos de los más importantesson:SpiegelhalteryLauritzen(1990),Buntine (1991)yHeckerman(1996)

4.

Balanceo

de

las

clases

y

selección

de

variables

El conjunto de datos estudiado contiene 1.767 registros que representan a los clientes de una caja de ahorros de La Rioja que demandaron un crédito. Del total de loscasos,1.565devuelvenelcrédito,frentealos167queno

reingresanelcrédito.Existen19atributostantonuméricos como nominales aportados por el banco. Los atributos de cada cliente nos informan sobre diversas cuestiones: estado civil, sexo, edad, tipo de trabajo, código de pro-fesión, situación de la vivienda, nacionalidad, etcétera, así como otra información relacionada con el crédito: finalidad, importe solicitado, importes pendientes en su entidad bancariayen otras,patrimonio, valorneto de la vivienda,situacióndeingresos,cuotasygastosdealquiler ypréstamos,etcétera.Tambiénsabemossielcréditoseha concedidoosehadenegado.

Antes de aplicar los diferentes métodos hemos de resolver2cuestionesfundamentalesqueseabordana con-tinuación: balanceo de la variable clase y ver cuál es el conjuntodevariablesexplicativasóptimoparala clasifica-ción.

4.1. Balanceodelasclases

Alahoradeaplicarlosmétodosdeclasificaciónhemosde tenerencuentacómoestándistribuidaslasinstancias res-pecto a la clase. Al no estar balanceadas las clases, los clasificadoresestaránsesgadosapredecirunporcentajemás elevadodelaclasemásfavorecida.

Paraobservarelefectoqueseproduceenelporcentaje deacierto,segúnlaclase,enlas tablas1y2sepresenta, paradiversosmétodosdeclasificación,elporcentaje correc-tamenteclasificadotantoparaeltotalcomoparacadauna delasclases.

Eltama˜nodelamuestrajuegaunpapeldeterminanteen labondaddelosmodelosdeclasificación.Cuandoel desba-lanceoesconsiderable,descubrirregularidadesinherentes a la clase minoritaria se convierte en una tarea ardua y de pocafiabilidad. Japkowiczy Stephen(2002)concluyen quesi losdominiossonseparableslinealmente,los mode-los no son sensibles al problema del desequilibrio de las clases.

Enel ejemplo que estamostratando podemos ver que cuandomantenemosla basededatosconlas clases dese-quilibradas todos los métodos presentan una importante diferenciadeaciertosentrelasclases.

Losmétodos declasificaciónfavorecen engenerala la clasemayoritariasalvoenelcasodelclasificadorbayesiano Naïves Bayes, que clasifica mejor a la clase minorita-ria. Se da el caso extremo en el que un clasificador, las máquinas de vectores soporte, clasifican correcta-mente a todos los de la clase mayoritaria y a ninguno de la minoritaria. Tampoco los metaclasificadores esti-mancorrectamenteambasclases.Solamenteintroduciendo un método cuyo aprendizaje sea sensible al coste se lograequilibrarlaprecisióndelosejemplosbien clasifica-dos.

Las soluciones para tratar el desbalanceo se pueden encuadraren2grupos:solucionesaniveldedatosyanivel dealgoritmos.

Las técnicas dirigidas a modificar los datos tratan de remuestrearlastallasdeentrenamiento,bienseaatravés del sobremuestreode laclase minoritaria o del submues-treodelaclasequetienemayoresinstancias.Aunqueestas técnicashandemostradosuefectividad,nodejandetener ciertos inconvenientes:pueden eliminarejemplos útilese

(7)

Tabla1 Muestradesbalanceada(1.565instanciasclaseSIy167claseNO)

Modelo ClaseSÍ(%) ClaseNO(%) Total(%) Estadísticokappa ÁreaROC

C4.5 97,3 29,3 90,8 0,335 0,734

Maq.Vect.Soporte 99,6 5,4 90,5 0,083 0,525

PerceptrónMult. 94,9 28,1 88,5 0,258 0,794

RedesBaseRadial 100,0 0,0 90,4 0,000 0,819

NaïveBayes 57,6 85,5 60,3 0,157 0,825

RedBayesiana(TAN) 93,9 52,1 89,8 0,441 0,889

RedBayesiana(K2) 93,4 50,3 89,2 0,413 0,887 RedBayesiana(HC) 94,1 46,1 89,4 0,399 0,888 Regresiónlogística 97,6 38,3 91,9 0,437 0,867 Metaclasificadores RandomForest 99,0 28,7 92,2 0,383 0,828 ADABOOST 96,1 40,1 90,7 0,404 0,878 BAGGING 98,6 21,0 91,1 0,277 0,867 STAKINGC(5modelos) 97,3 32,9 91,1 0,372 0,792 RandomCommittee 98,1 31,7 91,7 0,385 0,839 RandomSubSpace 99,6 13,2 91,3 0,204 0,871 Incorporacióndecostes Metacost1/1 97,3 31,1 90,9 0,352 0,753 Metacost3/1 94,4 41,9 89,3 0,372 0,803

incrementar los costes. Otra crítica a esta estrategia se refierealcambio queserealizaenladistribuciónoriginal delconjuntodeentrenamientodelosdatos

En el tabla 2 se expresan los resultados de diferentes clasificadoresaplicadosaunamuestradondesehan balan-ceadoambasclases.Laformadeextraerlosregistrosdela clasemásnumerosahasidoaleatoria.Cuandoexiste equili-briodelasinstanciasenlabasededatos,losporcentajesde aciertodelosclasificadoresparaambasclasesestánmucho másigualados.

Eltemademuestrasdesbalanceadassehatratado exten-samenteysehanutilizado muchasestrategias,aunquese puedeafirmarquenoexisteunasoluciónconcluyentesobre quésoluciónesmejor.Hulseetal.(2007)concluyenquela decisiónsobrelamejortécnicaestáinfluidaengranmedida porlanaturalezadelclasificadorylamedidadeefectividad. Otraformaquedisponemosparacombatireldesbalance de clases es a través del establecimiento de una matriz decostes,loquesehallamadométododelcosto-sensitivo (cost-sensitive).Estemétodosebasaenlaaseveraciónde

Tabla2 Muestraequilibrada(167ejemplosparacadaclase)

Modelo %ClaseSÍ %ClaseNO %ClaseTotal Estadísticokappa ÁreaROC

C4.5 76,0 82,0 79,0 0,581 0,810

Maq.Vect.Soporte 79,0 73,1 76,0 0,521 0,760

PerceptrónMult. 74,9 75,4 75,1 0,503 0,805

RedesBaseRadial 74,3 76,0 75,1 0,503 0,794

NaïveBayes 60,5 83,8 72,2 0,443 0,806

RedBayesiana(TAN) 79,0 83,8 81,4 0,629 0,890

RedBayesiana(K2) 79,6 84,0 81,8 0,635 0,885 RedBayesiana(HC) 80,2 81,4 80,8 0,617 0,871 Regresiónlogística 78,4 74,9 76,6 0,533 0,858 Metaclasificadores RandomForest 80,2 78,4 79,3 0,587 0,867 ADABOOST 79,6 82,0 80,8 0,617 0,862 BAGGING 82,0 80,8 81,4 0,629 0,864 STAKINGC(5modelos) 76,0 82,6 79,3 0,587 0,780 RandomCommittee 82,0 75,4 78,7 0,575 0,855 RandomSubSpace 79,6 80,8 80,2 0,604 0,851 Incorporacióndecostes Metacost1/1 79,0 79,6 79,3 0,587 0,809 Metacost3/1 70,7 85,0 77,8 0,557 0,774

(8)

queelpreciodecometerunerrordeclasificacióndebeser distintoparacada clase.Esevidenteque eneste ejemplo noes lo mismo conceder un crédito yno pagarlo que no concederlocuandosedeberíahaberconcedido.

Enestetrabajo,elclasificadorqueseaplicaparapoder comparar con el resto de los algoritmos es el metacost (Domingos,1999).Elobjetivodeesteprocedimientoses ree-tiquetarcadamuestradeentrenamientoporlaestimación delriesgodeBayes.Finalmente,elclasificadorseentrena conunmétodonobasadoencostesconelconjuntoqueya hasidoreetiquetado.

Latécnicamássencilladesobremuestreoeslaaleatoria simpleatravésdelaréplicadeejemplosenlamismaclase, peroeste métodopuedeocasionar unaltosobreajustede losclasificadores.

Como técnica más inteligente para incrementar los ejemplosdelaclaseminoritariaseencuentraelyacitado algoritmo SMOTE, originario de Chawla et al. (2002). En este método la creación de nuevas muestras se origina a travésdelainterpolación.Enunprimerpaso elegimoslos kvecinosmáscercanosyquepertenecenasumismaclase. Posteriormenteelegimoselnúmerodemuestrasartificiales que se generarán, y finalmente, para generar una nueva muestrasecalculaladiferenciaentreelvectordeatributos bajoconsideración yuno de los vecinos más cercanosde loskvecinos elegidosalazar.Elresultadodeladiferencia semultiplicaporunvaloraleatorioentreceroyuno.

ElalgoritmoSMOTEsehamodificadodediferentes mane-raspara adaptarsemejor amuchos ejemplos. Algunasde estasaportacionessonlasefectuadasporHanetal.(2005), queproponenel algoritmoBorderline-SMOTEparagenerar ejemplos positivos cercanos a una frontera. Wang et al. (2006) presentan el algoritmo LLE-SMOTE (Locally Linear Embedding),queproyectaconjuntosdealta dimensionali-dada otrodemenor dimensionalidad.Eneste espaciode reducidadimensionalidadesdondeseaplicaSMOTE,y des-puéslosejemplosgeneradossontransformadosasuespacio derepresentaciónoriginal.

Otrasformasdeobtenerunarepresentaciónmayordela claseminoritariasebasanentécnicasdeagrupamiento.Por ejemplo,Japkowicz(2001)empleael algoritmode cluste-ringk-medias sobrecada clase por separado.Los clusters resultantessesobremuestreanaleatoriamentehasta conse-guirunequilibrioentrelasclases.Otrotrabajoenestalínea deinvestigacióneseldeCohenetal.(2006),quetambién exploralageneracióndenuevasinstanciasatravésde algo-ritmosdeclustering,peroenestecasoloscentroidesdelos clustersseobtienenatravésdeunalgoritmoaglomerativo jerárquico.

Encuantoalastécnicasdesubmuestreo,unadelas pri-meraspropuestasparaeditarofiltrarlasmuestrasde entre-namientofueelalgoritmodeEdicióndeWilson(1972), tam-biénconocidocomolaregladelvecinomáscercanoeditado (EditedNearestNeighbor).Actualmenteexistenmuchas for-masde proceder, y algunas de ellas son las siguientes: a travésdelsubmuestreoaleatoriodeJoyJapkowicz(2004) consubmuestreodirigido;elalgoritmoOne-sidesselection deKubatyMatwin(1997),contécnicasdevecindad;el algo-ritmo Neighbordhood Cleaning Rule de Laurikkala (2002) consubmuestreoaplicandoalgoritmosgenéticos(Kuncheva yJain,1999),consubmuestreopordistancia(ZhangyMani, 2003),consubmuestreoporclustering(Cohenetal.,2006)y

atravésdelaprendizajeactivodeProvost(2003).Respectoa losmétodosdeclasificaciónenentornosnobalanceadosque nocambianladistribuciónaprioridelasclases,nos encon-tramosconlassolucionesaniveldealgoritmos:aprendizaje sensiblealcoste,algoritmosdeclasificaciónconsesgohacia laclaseminoritariaylosclasificadoresdeunaclase.

En esta investigación los resultados de los diferentes clasificadores que se presentan se aplican a un conjunto de datos que se han balanceado a través de un método mixto donde se aplica el métodoSMOTE a la clase mino-ritaria y se reduce la muestra de la clase mayoritaria a través del métododel submuestreoequilibrado delcubo, propuestoporDevilleyTillé,2004.Estemétodode mues-treo eselúnico que nospermiteseleccionar unamuestra equilibrada sobre variables auxiliares con probabilidades de inclusión iguales o no. El método del cubo selecciona únicamente las muestras cuyos estimadores de Horvitz-Thompsonsonigualesalostotalesdelasvariablesauxiliares conocidas.

Delos1.575ejemplosdisponiblesquedevolvieronel cré-ditosehanseleccionado312registrosatravésdelmétodo del cubo. Para esta selección de los individuos las varia-bles auxiliaresutilizadaspor elmétododel cubohansido elestadocivil,lanacionalidad,eltipodetrabajo,las con-dicionesdelacasayeltipodetrabajodelaspersonasque solicitanel crédito. El númerode muestras queha consi-derado este método para llegar a la solución más idónea ha sido de 77.250 muestras. En la tabla 3 se presentan, para la muestra elegida, lostotales ylos estimadores de Horvitz-Thompson(quedependendelamuestra),asícomo loserroresabsolutosyrelativos,enporcentaje,entreambos paracadavariabledeequilibrio.

4.2. Métodosdeseleccióndevariables.Manto deMarkov

Elaltonúmerodevariablesrecogidasparaelestudiodeun fenómeno a veces es unproblema para el aprendizaje si elnúmerodeinstanciasoejemplosdelamuestraes redu-cido.Esteeselproblemaconocidocomolamaldicióndela multidimensionalidad.

Aunque,comoseverámásadelante,lasoluciónescogida serealizaatravésdelaenvolventedeMarkov,enla litera-turadeseleccióndevariablesexisten2métodosgenerales paraescogerlasmejorescaracterísticasdelabasededatos: métodosdefiltroymétodosbasadosenmodelos.Enlos pri-merossefiltranlosatributosirrelevantesantesdeaplicarlas técnicasdemineríadedatos.Elcriterioqueestablecelas variablesóptimassebasaenunamedidadecalidadquese calculaapartirdelosdatosmismos.Enlosmétodosbasados en modelos, también conocidos como métodos de envol-venteowrapper,labondaddelaseleccióndelasvariables seevalúaatravésdeunmodeloutilizando,lógicamente,un métododevalidación.

Enelcaso delaseleccióndeatributosdebemos definir un algoritmo que evaluará cada atributo individualmente delconjunto dedatosinicial, quesedenomina«attribute evaluator», y unmétodo de búsqueda que hará una bús-quedaenelespaciodeposiblescombinacionesdetodoslos subconjuntosdelconjuntodeatributos.

(9)

Tabla3 Resultadosdelsubmuestreoequilibrado.Métododelcubo

Totales EstimadoresHT Errorabsoluto Errorrelativo

Uno 1.575 1.575,0 0,00 0,00 Casado 882 879,3 ---2,71 ---0,31 Separado 128 125,6 ---2,39 ---1,86 Soltero 565 570,1 5,09 0,90 Espa˜nol 1.419 1.420,4 1,40 0,10 Extranjero 156 154,6 ---1,40 ---0,90 Fijo 921 917,9 ---3,06 ---0,33 Temporal 216 212,6 ---3,42 ---1,58 Autónomo 125 125,6 0,61 0,49 Pensionista 77 77,3 0,30 0,39 Otrostrabajos 236 241,6 5,56 2,36 Libre 482 473,5 ---8,53 ---1,77 Hipotecada 597 599,1 2,08 0,35 Alquiler 133 135,3 2,28 1,71 Domiciliofamilia 297 299,5 2,54 0,86 Otrasviviendas 66 67,6 1,64 2,48 Técnicosuperior 91 87,0 ---4,04 ---4,44 Mandointermedio 108 106,3 ---1,71 ---1,58 Administrativo 112 116,0 3,95 3,53 Obreroespecializado 167 164,3 ---2,74 ---1,64 Obrero 570 570,1 0,09 0,02 Noliberal 104 106,3 2,29 2,20 Amadecasa 189 193,3 4,25 2,25 Pensionista 80 77,3 ---2,70 ---3,37 Otrasprofesiones 154 154,6 0,60 0,39

De esta forma podremos evaluar independientemente cada una de las combinaciones de atributos y, con ello, seleccionarlasconfiguracionesdeatributosquemaximicen lafuncióndeevaluacióndeatributos.

Para resolver el problema de plantear combinaciones deatributos ola funciónqueevalúa cada subconjuntode atributoes precisoutilizar unalgoritmo debúsquedaque recorraelespaciodeposiblescombinacionesdeunaforma organizada,oadecuadaalproblema.

Ademásdelmétododelascomponentesprincipales, exis-ten2tiposdeevaluadores:evaluadoresdesubconjuntoso selectores(SubSetVal)yprorrateadoresdeatributos (Attri-buteEval).

Los SubSetVal necesitan una estrategia de búsqueda

(Search Method) ylos AttributeEvalordenan las variables segúnsurelevancia,asíquenecesitanunRanker.

Habitualmente, enlas situacionesenla queseemplea selección de atributos no es posible hacer un recorrido exhaustivo enel espacio decombinaciones,por lo que la selección adecuada de un algoritmo de búsqueda resulta crítica.

Para esta base de datosse utiliza,en primer lugar, el algoritmoevaluadordeatributos«CfsSubsetEval»,delque disponenya muchos programas. Este algoritmo es el más sencillo, yaque puntúa a cada atributo enfunción de su entropía.Comoalgoritmodebúsquedautilizamoslos algo-ritmos genéticos. Ensegundo lugar recurrimos al método Rankerparaquenosfaciliteunaordenacióndelosatributos segúnsuimportancia.

Los algoritmosgenéticos propuestospor Holland(1975) suponenunodelosenfoques másoriginalesenla minería

dedatos. Seinspiran enel comportamientonatural dela evolución,yparaellosecodificacadaunodeloscasosde pruebacomo unacadena binaria(que seasemejaría aun gen).Esta cadenase replicao seinhibe enfuncióndesu importancia,determinadaporunafuncióndenominadade ajusteofitness.

Los algoritmos genéticos son adecuados para obtener buenasaproximacionesenproblemasdebúsqueda, apren-dizajeyoptimización(Marczyk,2004).

Lasoluciónquenosparecemásóptimayadecuadaaeste problemaencuantoalnúmerodevariablesutilizadasenla aplicaciónde losmodelos yalgoritmos declasificaciónes seleccionarlosatributosparalaclasificaciónatravésdelos resultadosobservadosenelmantodeMarkov.

LaenvolventedeMarkovparaunavariablerepresentael conjunto devariables delas que depende dicha variable. Así,si aplicamosla envolvente o mantodeMarkov a esta redbayesiana,definidaestaenvolventecomo:

(Padres(X) U Hijos U Padres(Hijos(X))) (4.1) obtenemosquelas19variablesoriginalessehanreducido a11, dado que 8de ellasnocontienen información rele-vanteconocidaselrestodevariables.Elgrafoquemuestra laestructura dedependencias/independenciasesel dela figura3.

EstafigurasehaobtenidoutilizandoelalgoritmoHC,que partedeunareddeenlacesvacíayempleaunamétricaBIC (BayesianInformationCriterion)comométodode aprendi-zaje.

Enestaredsepuedenobservarlasrelacionesde depen-denciadirectaseindirectasentrelasvariables.Entreestas

(10)

SALDOMEDVINVI NUMCPNUNIFAM IMPCUO CLASE IMPPMO CIVIL IMPVALVIV FINALIDAD VIVIENDA NACIONALIDAD INGRESOS PROFESION

Figura3 EstructuradelaredbayesianaaplicandolaenvolventedeMarkov.

dependencias podemos destacar, entre otras, la relación entrela cuotadelcrédito(IMPCUO), el importe(IMPPMO) ylafinalidadalaquesedestina(FINALIDAD).Otrarelación interesanteeslaqueseobservaentrelanacionalidad,los ingresosyla profesión,yentrela nacionalidad yel saldo medionovista.

Aesta estructura derelaciones entre las variableshay que a˜nadir que todos los nodos tienen una probabilidad asignada,aligualqueunaprobabilidadcondicionadaalos valoresdelcualdependensuspadres.Esestaestructurade probabilidades,juntoconlacapacidaddescriptivadelared,

laquedotaalosmétodosbayesianosdeunamayoreficacia, potenciayversatilidadrespectoaotrosmétodosno probabi-lísticos.VéaseComoejemplodelasmúltiplesposibilidades queseofrecen,véanse2tablasdeprobabilidadesasociadas alasrelacionesentrelasvariablesdelascualesdependen (tablas4y5).

Elprocesodediscretizacióndelas variables cuantitati-vas necesarias para la estimación de la red bayesiana se ha realizado a través del método de la mínima entropía propuesto por Fayyard y Irani (1993). Eneste método se seleccionanlospuntosdecortedeformarecursivamediante

Tabla4 DistribucióndeprobabilidadesparalavariableIMPCUOylavariableCLASE Importedelacuota

Clase <41 41-238,5 238,5-249,9 249,9-251,7 251,7-429,7 >429,7 Total

SÍ 0,125 0,490 0,027 0,151 0,135 0,071 1

(11)

Tabla5 Distribucióndeprobabilidades.Variable:INGRESOS,NACIONALIDADyIMPVALVIV Ingresos

Nacionalidad Valorvivienda <22.983 22.983 Total

Espa˜nol <27.022 0,881 0,119 1

Extranjero ≥27.022 0,710 0,290 1

Espa˜nol <27.022 0,963 0,037 1

Extranjero 27.022 0,936 0,064 1

Tabla6 ResultadosconSMOTEymétododelcubo

Modelo ClaseSÍ(%) ClaseNO(%) Total(%) Estadísticokappa ÁreaROC

Fasedeentrenamiento

C4.5 82,7 84,8 83,8 0,672 0,823

Maq.Vect.Soporte 83,0 82,6 82,8 0,656 0,828

PerceptrónMult. 80,4 86,5 83,4 0,669 0,880

RedesBaseRadial 76,9 85,2 81,0 0,621 0,858

NaïveBayes 73,1 85,8 79,4 0,589 0,882

RedBayesiana(TAN) 84,0 86,1 85,0 0,701 0,926

RedBayesiana(K2) 86,2 86,1 86,2 0,724 0,930 RedBayesiana(HC) 85,6 84,5 85,0 0,701 0,929 Regresiónlogística 83,7 83,5 83,6 0,672 0,922 Metaclasificadores RandomForest 86,9 81,9 84,4 0,688 0,920 ADABOOST 87,2 85,5 86,3 0,727 0,927 BAGGING 86,5 85,8 86,2 0,724 0,940 STAKINGC(5modelos) 85,6 85,8 85,7 0,714 0,932 RandomCommittee 84,3 89,7 87,0 0,740 0,935 RandomSubSpace 84,0 88,4 86,2 0,724 0,927 Incorporacióndecostes Metacost1/1 82,4 82,3 82,3 0.6463 0.838 Metacost3/1 79,8 86,8 83,3 0.6657 0.841 Fasedetest C4.5 71,4 75,0 73,1 0,462 0,726

Maq.Vect.Soporte 71,4 91,7 80,8 0,620 0,815

PerceptrónMult. 78,6 66,7 73,1 0,455 0,792

RedesBaseRadial 71,4 91,7 80,8 0,620 0,881

NaïveBayes 50,0 91,7 69,2 0,402 0,881

RedBayesiana(TAN) 78,6 91,7 84,6 0,694 0,827

RedBayesiana(K2) 78,6 91,7 84,6 0,694 0,857 RedBayesiana(HC) 78,6 83,3 80,8 0,615 0,804 Regresiónlogística 78,6 83,3 80,8 0,615 0,911 Metaclasificadores RandomForest 78,6 75,0 76,9 0,536 0,833 ADABOOST 78,6 75,0 76,9 0,536 0,875 BAGGING 71,4 91,7 80,8 0,620 0,851 STAKINGC(5modelos) 78,6 83,3 80,8 0,615 0,875 RandomCommittee 78,6 75,0 76,9 0,536 0,827 RandomSubSpace 78,6 83,3 80,8 0,615 0,869 Incorporacióndecostes Metacost1/1 71,4 83,3 76,9 0,541 0,762 Metacost3/1 71,4 83,3 76,9 0,541 0,762

(12)

unalgoritmodeminimizacióndelaentropíausandoel cri-terio de «longitud de descripciónmínima» propuesto por Suzuki(1996).

5.

Resultados

obtenidos.

Comparación

de

clasificadores

Losresultadosqueseofrecenenesteepígrafeseresumen enlatabla6,dondesedetallanlosresultadosparael con-juntodedatoscon11variablesqueseseleccionanalaplicar losresultadosobservadosenelmantodeMarkov.Entodas lasprediccionesquearrojanlosmodelosutilizadosse mues-tranelporcentajetotaldeaciertos,desglosadosparaambas clases,ylasmedidasdeevaluacióndelos16modelosque sehanutilizado.

Lasinstanciasutilizadashansidoextraídasaplicandoala basededatosoriginalelmétododelcuboalaclase domi-nanteyelmétododesobremuestreodenominadoSMOTEa la clase minoritaria, descritos brevemente en las páginas anteriores.Alaplicarestos2procedimientosseobtieneuna base de datos que contiene 312 individuos de la clase SÍ (devuelven el crédito) y310 de la clase NO (nopagan el crédito).

Losmétodosempleadosenlaclasificaciónsonlos siguien-tes: regresión logística, máquinas de vectores soporte, 2 modelos de redes neuronales, el C.4.5 como árbol de clasificación, 6métodos multiclasificadoresy elalgoritmo Metacostconysinmatrixdecostes.Losresultadosdetodos losmodelossoncomparadosconlosqueseobtienenatravés delosmétodosestadísticosbayesianosexplicados anterior-mente.Enconcreto,sehanaplicado3redesbayesianasque buscanyoptimizanlamétricabayesianaatravésdelos algo-ritmosK2,HC(HillClimbing)yTAN(TreeAugmentedNaïve Bayes).

El multiclasificador Stacking se configura con 5 mode-los:perceptrónmulticapa,redbayesiana conelalgoritmo debúsquedaK2,regresiónlogística,máquinasdevectores soporteyelárboldeclasificación,C4.5.

En la tabla 3 se presentan los resultados de todos los modelos estudiados con 15 variables tanto en la fase de entrenamientocomoenlafasedetest,realizadaestacon 26 registros seleccionados aleatoriamente de la base de datos.

Comocuestiónmásdestacadapodemosafirmarque2de los 3 modelos de redes bayesianas alcanzan, en la fase detest, losmejoresresultados enprecisión deaciertos y en los valores del estadístico kappa: TAN y K2 obtienen unporcentajedeaciertosdel84,6%yvaloresdel estadís-ticokappadel0,694. Tambiénson estos2modelos,junto con algunos otros, los que pronostican el mayor número deaciertos en la clase NO(no seconcede el crédito). El área bajo la curva ROC es bastante elevada (0,827). La red entrenadacon HC alcanza el 80,8% de registros bien clasificados y obtiene valores más bajos en los estadísti-cos.

Unaparticularidaddelosmodelosderedesbayesianoses quemantienenunasimilarprecisiónenelporcentajeglobal devaloresbienpronosticados,tantoenlafasede entrena-mientocomoenlafasedetest,cuestiónquenoocurreen elrestodelosmodelosenesta fase,que,porotraparte, eslafasequerealmenteimporta,dadoquemuchosdelos

métodos de minería de datostienden a sobreajustarse a losdatosenlafasedeentrenamiento.

También se observa que en la fase de entrenamiento todoslosmodelosindividualesutilizados sonmenos preci-sosquelosmulticlasificadores,siobservamoselporcentaje de aciertos, el estadístico kappa y el área ROC. Entre estos,elquemásaciertaeselRandomCommittee(87,0%). La regresión logística también ofrece, en esta etapa, buenos resultados (83,6%), al igual que los árboles de decisión.

Enlafasedetest,entrelosmulticlasificadores,3deellos presentanun80,8%deaciertos:Stacking,BaggingyRandom Subspace.Stacking,aligualquelaredesbayesianas,TAN,K2 yHC,delas12instanciasdelaclaseminoritariaymás impor-tanteentérminosdecoste,predicencorrectamente11de ellas,osea,el91,7%,yrespectoalaotraclase, económica-mentemenosimportante,elmétodoBaggingalcanzasoloel 71,4%delosregistroscorrectamenteclasificados,mientras queTANyK2lleganal78,6%.

6.

Conclusiones

Comoresumen delanálisisdelosdatosyla aplicaciónde losmodelosutilizadosenesteartículopodemosextraerlas siguientesconclusiones:

• Lautilizacióndelasredesbayesianasconunóptimo equi-libradodelasinstancias,unidoalacorrectaseleccióndel conjuntodevariablesexplicativasparalaresolucióndel problemadelcreditscoring,noshaconducidoaobtener excelentesresultados enla fasede entrenamientoy la mayorprecisiónenlafasedetest.

• Además,las redesbayesianasseconvierten enmodelos muyóptimosdadoquepuedenincorporarinformaciónde losexpertoseneláreadeestudioyoptimizaraúnmásel porcentajedeaciertos.

• Cuando las bases de datos están desbalanceadas, las mejores opciones se experimentan cuando se equi-libran las muestras. Por el análisis de la extensa bibliografía existente se constata que existen muchas propuestas que intentan solucionar este problema sin que aún exista la solución ideal, y que los resulta-dos dependen de las características intrínsecas de los datos.

• Cuandoelcosteeconómicodelaclasificaciónesdiferente segúnlasclases,comoenelcreditscoring,incorporarla matrizdecostes esmuyconveniente.Algunosmétodos, como el Metacost, obtienen resultadosmuy aceptables ponderandolamatrizdecostes,yaqueoptimizanel aná-lisiscoste-beneficio.

• Laseleccióndevariablesesunatareaimprescindiblepara buscar modelos mássencillos e interpretables. Eneste sentido,laayudadelaenvolventedeMarkovhareducido significativamenteelnúmerodevariables,mejorandola interpretabilidaddelmodeloelegido.

• También podemos afirmar que, para resolver el pro-blemadelcreditscoring,losmétodosmulticlasificadores obtienenbuenos resultadosy, engeneral,son más pre-cisosquecuandolosalgoritmossonutilizados individual-mente.

(13)

Bibliografía

Bonilla, M., Olmeda, I., Puertas, R., 2003. Modelos paramétri-cosynoparamétricosenproblemasdecreditscoring.Revista Espa˜noladeFinanciaciónyContabilidadXXXII.

Buntine,W.,1991.TheoryrefinementonBayesianNetworks.En: ProceedingsofSeventhConferenceonUncertaintyinArtificial Intelligence,LosAngelesCA,pp.52---60.

Campos, L.M., 2006. A scoring function for learning Bayesian networksbased on mutualinformation and conditional inde-pendence tests. Journal of Machine Learning Research 7, 149---2187.

Castillo,E.,Gutierrez,J.M., Hadi,A.,1998.Sistemas Expertosy ModelosdeRedesProbabilísticas.MonografíasdelaAcademia deIngeniería.

Chawla, N.V.,Bowyer, K.W.,Hall,L.O., Kegelmeyer, W.P.,2002. SMOTE:SyntheticMinorityOver-SamplingTechnique.Journalof ArtificialIntelligenceResearch16,321---357.

Chow,K.,Liu,C.N.,1968.Approximatingdiscreteprobability distri-butionswithdependencetrees.IEEETransactionsonInformation TheoryIT-14,462---467.

Cohen, G., Hilario, M., Sax, H., Hugonnet, S.Y., Geissbuhler, A., 2006. Learning from imbalancing data in surveillance of nosocomial infection. Artificial Intelligence in Medicine 37, 7---18.

Cooper,G.,Herskovitz,E.,1992.ABayesianmethodforthe induc-tionofprobabilisticnetworksfromdata.MachineLearning9, 309---348.

Cowell,R.G.,David,A.P.,Lauritzen,S.L.,Spiegelhalter,D.J.,1999. ProbabilisticNetworksandExpertSystems.Springer-Verlag,New York.

Deville,J.-C.,Tillé,Y.,2004.Eficientbalancedsampling:Thecube method.Biometrika91,893---912.

Domingos,P.,1999.MetaCost.Ageneralmethodformaking classi-fierscost-sensitive.FifthInternationalConferenceonKnowledge DiscoveryandDataMining,155---164.

Duda,R.O.,Hart,P.E.,1973.PatternClassificationandScene Analy-sis.JohnWiley&Sons,NewYork.

Edwards, W., 1998. Hailfinder. Tools for and experiences with bayesian normative modeling. American Psychologist 53, 416---428.

Fayyard, U.M., Irani,K.B., 1993. Multi-interval discretization of continuousvaluedattributesforclassificationlearning.En: Pro-ceedings oftheThirteenth International JointConference on Artificial Intelligence, San Francisco, CA Morgan Kaufmann, pp.1022---1027.

Friedman,N.,Geiger,D.,Goldszmidt,M.,1997.Bayesiannetworks classifiers.MachineLearning29,131---167.

Friedman,N., Getoor, L.,Köller, D., Pfeffer, A.,1999. Learning probabilistic relational models. Proceedings of the Sixteenth International Joint Conferences on artificial Intelligence, 1300---1309.

Garbolino, P., Taroni, F., 2002. Evaluation of scientific evidence using Bayesian networks. ForensicScience International 125, 149---155.

Han H, Wang W, Mao B. (2005)Borderline-SMOTE: A new Over-SamplingMethodinImbalancedDataSetsLearning.En:Huanng D.S.,ZhzngX.-P.,HuangG.-B.,editors.ICICS,vol.3644deLNCS, pp.878-887.

Heckerman,D.,1996.AtutorialonlearningwithBayesiannetworks. Microsoft Reseach, Redmon, WA, Tech. Rep. N.◦ MSR-TR-95-06.

Hernández Orallo,J., Ramírez Quintan, M.J.,FerriRamírez, C., 2004. Introducción a lamineríade datos. Pearson - Prentice Hall.

Holland,J.H.,1975.AdaptationinNaturalandArtificialSystems. TheUniversityofMichiganPress(TheMITPress,London,1992).

HulseJ.V.,KhoshgoftaarT.M.,NapolitanoA.(2007)Experimental perspectives onlearning from imbalanced data. En: Ghahra-maniZ.editor.ICML,vol.227deACMInternationalConference Proceedingseries,pp.935-942.

JapkowiczN.(2001)Concept-LearninginthePresenceof Between-ClassandWithin-ClassImbalances.En: StrouliaE.,MatwinS., editors.CanadianConferenceonAI,vol.2056deLNCS,pp. 67-77.

Japkowicz,N.,Stephen,S.,2002.Theclassimbalanceproblem:A systematicstudyintelligentdata.AnalysisJournal6,1---32. Jo,T.,Japkowicz,N.,2004.Classimbalancesversussmalldisjuncts.

SIGKDDExplorations6,40---49.

Jordan,M.I.(Ed.),1998.LearninginGraphicalModels.Kluwer, Dor-drecht,Netherlands.

Kadie,C.M.,Hovel,D.,Hovitz,E.,2001.Acomponent-centric tool-kitformodelingandinferencewithBayesiannetworks.Microsoft Research,Richmond,WA,TechnicalReportMSR-TR-2001-67,pp. 13---25.

Keogh, E.J., Pazzani, M., 1999. Learning augmented Baye-sian classifiers: A comparison of distribution-based and non distribution-basedapproaches.En:Proceedingsofthe7th Inter-nationalWorkshoponArtificialIntelligenceand Statistics,pp. 225---230.

KubatM.,Matwin S.(1997)AddressingtheCourseofImbalanced TrainingSets:One-SidedSelection.En:FisherD.H.,editor.ICML, pp.179-186.

Kuncheva,L.,Jain,L.C.,1999.Nearestneighborclassifier: Simulta-neouseditingandfeatureselection.PatternRecognitionLetters 20,1149---1156.

Langley,P.W., Iba, P., Thompson, K.,1992. An analysisof Baye-sian classifiers.En:ProceedingsofTenthNationalConference on Artificial Intelligence. AAAI Press, Menlo Park, CA, pp. 223---228.

Larra˜naga, P., Poza, M., Yurramendi, Y., Murga, R.H., Kuijpers, C.M.H.,1996.StructurelearningofBayesiannetworksby gene-ticalgorithms:Aperformanceanalysisofcontrolparameters. PatternAnalysisandMachineIntelligence,IEEETransactionson Sep199618,912---926.

Laurikkala,J.,2002. Instance-baseddatareduction forimproved identificationofdifficultsmallclasses.IntelligentDataAnalysis 6,311---322.

López,J.,García,J.,delaFuente,L.,2006.Modeladocausalcon redes bayesianas.ActasdelasXXVIIJornadasdeAutomática, 198---202.

Marczyk,A.,2004.Geneticalgorithmsandevolutionary computa-tion.TheTalkOriginsArchive.

Martínez,I.,Rodríguez,C.,2003.Modelosgráficos.En:delÁguila, Y.,Artés, E.M.,Juan, A.M.,Martínez,I.,O˜na, I.,Ortiz,I.M., etal.(Eds.),Técnicasestadísticasaplicadasalanálisisdedatos. ServiciodePublicacionesdelaUniversidaddeAlmería,Almería, pp.217---257.

Mitchell,T.M.,1997.MachinLearning.MacGraw-Hill.

Nadkarni,S.,Shenoy,P.P.,2001.ABayesiannetworkapproachto makinginferencesincausalmaps.EuropeanJournalof Opera-tionalResearch128,479---498.

Nadkarni,S., Shenoy,P.P., 2004. A causal mapping approach to constructing Bayesiannetworks.DecisionSupport Systems38, 259---281.

Neapolitan,R.E.,2003.LearningBayesianNetworks.PrenticeHall, NewYork,NY,USA.

ProvostF.2003.Machinelearningfromimbalanceddatasets101 (ExtendedAbstract).En:AAAI:WorkshoponLearningwith Imba-lancedDataSets.

Spiegelhalter,D.J.,Lauritzen,S.L.,1990. Sequentialupdatingof conditionalprobabilitiesondirectedgraphstructures.Network 20,579---605.

Suzuki,J., 1996.LearningBayesianBeliefNetworkBasedonthe Minimum Description Length Principle: AnEfficient Algorithm

(14)

Using the B&B Technique. En: Proceedings of the Thir-teenth International Conference on Machine Learning, pp. 462---470.

WangJ., XuM., WangH.,ZhangJ.2006. Classification of Imba-lancedDatabyUsingtheSMOTEAlgorithmand locallyLinear Embedding.En:ICSP,vol.3,pp.16-20.

Wilson,D.L.,1972.Asymptoticpropertiesofnearestneighbourrules usingediteddata,IEEETransactionsonSystems,Manand Cyber-netics.IEEEComputerSocietyPress,LosAlamos.

Zhang, J.,Mani,I.,2003. kNNapproach tounbalanceddata dis-tributions:Acasestudyinvolvinginformationextraction.ICML: WorkshoponLearningfromImbalancedDatasetII.

www.elsevier.es/cesjef Modelos 52---60. 7,149--2187. Sistemas 321---357. 462---467. 37,7---18. 9,309---348. Probabilistic 893--912. 155---164. Pattern 53,416---428. 1022---1027. 131--167. Learningprobabilistic 125,149---155. A Introducción 1992). 6, 40---49. Learning Learning 1149--1156. An 912---926. 311---322. Modelado Genetic 217---257. Machin 479---498. 38,259---281. Learning 579---605. Learning Asymptotic kNN

References

Related documents

The Bank provides a range of materials to help cash users — including the public and staff at retailers and at financial institutions — check that notes are genuine.. (4) It also has

– Pre-cut the screw (bone type 1) if the density of the bone sub- stance is consistent with the screw tab regular (Art. 30120) – Revolution 15 rpm. – If the alveolar ridge is

21 Moreover, even assuming that radi- cally incomplete legal arguments can lead to determinate conclu- sions in her preferred forum, West's definitive claims

draft, ‘The Reformed Housebreaker’, into the ‘The Housebreaker of Shady Hill’ ( The New.. Yorker , 14 April 1956), the title story and thematic fulcrum of Cheever’s third

[r]

This papers shows that if the EPIC O2 B-band (688 nm) is used instead of the red band, the effect of atmosphere (the diffuse radiation) on remote sensing of surface reflectance

Results: Three hundred and eighty-three patients (317 males, median age 72 years with a range of 15 e90 years) underwent open infrarenal aortic aneurysm repair during the period,