Bayesian networks applied to credit scoring problems: A practical application

(1)

Cuadernos

de

economía

www.elsevier.es/cesjef

ARTÍCULO

Redes

bayesianas

aplicadas

a

problemas

de

credit

scoring

.

Una

aplicación

práctica

Mauricio

Beltrán

Pascual

a,∗

,

Azahara

Mu˜

noz

Martínez

b

y

Ángel

Mu˜

noz

Alamillos

b

a_Departamento_de_Economía_Aplicada_y_{Estadística,}_Facultad_de_Ciencias_Económicas_y_{Empresariales,}_UNED,_Madrid,_Espa˜_na b_Facultad_de_Ciencias_{Empresariales,}_Universidad_Autónoma_de_Chile,_Santiago_de_Chile,_Chile

Recibidoel29deabrilde2013;aceptadoel1dejuliode2013 DisponibleenInternetel30deoctubrede2013

CÓDIGOSJEL C11 PALABRASCLAVE Redesbayesianas; MantodeMarkov; Creditscoring; CurvaROC; Multiclasiﬁcadores

Resumen Enesteartículoseabordalaformadeconstruirunclasificadoreficienteatravés deredesbayesianasutilizadasenlamineríadedatosycuyafinalidadesconseguirmás preci-siónqueotrosmodelosempleadosenlosproblemasdecreditscoring.Elenfoquebayesiano, basadoenmodelosdeprobabilidad,emplealateoríadeladecisiónparaelanálisisdelriesgo eligiendoencadasituaciónquesepresentalaacciónquemaximizalautilidadesperada.Usando unamuestradedatosbancariosrealesseconcluyelasuperiorcapacidadpredictiva deestos modelosrespectoalosresultadosobtenidosporotrosmétodosestadísticosparamétricosyno paramétricos.

©2013AsociaciónCuadernosdeEconomía.PublicadoporElsevierEspaña,S.L.Todoslos dere-chosreservados. JELCLASSIFICATION C11 KEYWORD Bayesiansnetworks; Markovblanket; Creditscoring; ROCcurve; Multiclassiﬁers

Bayesiannetworksappliedtocreditscoringproblems.Apracticalapplication

Abstract ThispaperanalyseshowtobuildanefﬁcientclassiﬁeracrossBayesiansnetworksused indatamining.ThepurposeofusingtheBayesianmodelistoimprovecreditscoringaccuracy. TheBayesianapproach,basedonprobabilitymodels,analysesriskbyusingthedecisiontheory, yieldingasasolutionthatactionthatmaximizestheexpectedutility.Expertassessmentmay beincludedinthemodel.ToshowthesuperiorityoftheBayesianapproach,resultsobtained for real bankdata arecomparedwith thoseobtained withalternativeparametricand non-parametricmodels.

∗_Autor_para_{correspondencia.}

Correoselectrónicos:[email protected], [email protected](M.BeltránPascual).

1.

Introducción

Enesteartículosepresentaunaformadeimplementarun clasiﬁcador de préstamos bancarios a través del enfoque bayesiano.Conlainformaciónaportadaporelclienteque solicita el crédito, aplicada a la base de datos histórica 0210-0266/$–seefrontmatter©2013AsociaciónCuadernosdeEconomía.PublicadoporElsevierEspaña,S.L.Todoslosderechosreservados. http://dx.doi.org/10.1016/j.cesjef.2013.07.001

(2)

dequedisponeelbanco,elmodelosugierealgerenteuna primera decisión sobre la aceptación o no de la petición delcliente(modelo decreditscoring).Eneste artículose proponeunsistemadepredicciónqueoptimizaladecisión estadísticaquedeterminalaclasealaquepertenecenlas muestrasoclientes evaluados,siempresinolvidarque los modelosdecreditscoringayudanenunprimermomentoa tomarladecisióndesiconcederonoelcrédito,eincluso permitenjustiﬁcarlamisma.Noobstante,juntoasus resul-tados, deben considerarse otras dimensiones cualitativas que necesariamente deben complementar la toma de la decisiónyquenosepuedenestudiarconlosmodelos mate-máticos.

Disponerdeunbuenmétodoquenosayudeatomar deci-sionesmáscorrectaspuedemejorarlaeficaciadelagestión deunaentidadbancaria,siendodeespecialinterésenuna situacióncomolaactual,enlaquealasentidades financie-rasselesestáexigiendounmayoranálisisdelriesgoyuna mejoraenlaeficienciadesugestión.

Las formas de enfrentarse al problema de la clasifica-ciónsonvariadas.Lagrandiversidaddetécnicasexistentes pueden incorporar análisis estadísticos, herramientas de minería de datos o inteligencia artificial con aprendizaje demáquina;latécnicamásclásicaenlosproblemasde cre-ditscoringhasidolaregresiónlogística,quegeneralmente ofrecebuenosresultadosestadísticos.Otroenfoqueclásico essintetizarlainformacióndelabasededatosdeclientesa travésdereglasydeárbolesdedecisión;finalmente,otras aproximacionesmásnovedosasempleadasenlosmodelosde creditscoringsebasanenlaaplicaciónderedesneuronales, implementandoalgoritmosevolutivos,splinesderegresión adaptativa,lasmáquinasdevectoressoporteodelalógica borrosa.Unarevisióndelosmétodoscitados,asícomouna aplicaciónpráctica,podemosencontrarlasenBonillaetal. (2003).

Eneste trabajo seconjuga una adecuada selecciónde variablesyunmétodoeﬁcientedeequilibrarlamuestra,lo que,unidoalaexpresividaddelasredesbayesianas, consti-tuyeunnovedosométododeabordarelproblemadelcredit scoring. Se demuestra la superioridad estadística de este métodoal compararlos resultadosobtenidoscon los pro-venientesdelaaplicacióndeotrosmodelosparamétricosy noparamétricoscomolasredesneuronales,losárbolesde decisión,las máquinasde vectores soporte o la regresión logística;secontrastanasimismolosresultadosdelmodelo propuestoconlosobtenidospor6modelos multiclasiﬁcado-resyunmétodoqueincorporaunamatrizdecoste.

Losresultadosdelmodelopropuestoseanalizanconlos datosoriginales,muestradesbalanceada,yconlamuestra balanceadaatravésdelalgoritmoSMOTE(Synthetic Mino-ritaryOver-samplingTechnique)originariodeChawlaetal. (2002)ydelmétododelsubmuestreoequilibradodelCubo, propuestoporDevilleyTillé(2004).Paralarealizaciónde este trabajo se ha dispuesto de una parte de la base dedatosdelosclientesdeunaentidadbancariarealquehan solicitadouncréditoenundeterminadoperíododetiempo. Acontinuacióny,enprimerlugar,seexponendeforma somera losmétodosyredes bayesianasasí comolos prin-cipales algoritmos para su aprendizaje tanto de la parte cuantitativa como cualitativa; en la tercera sección se abordan2problemasfundamentalesparaelbuen compor-tamientode unclasiﬁcador:la seleccióndevariablesyel

balanceodelamuestra.Posteriormente,enlacuarta sec-ción sepresentanlos resultadosobtenidoscomparándolos conmúltiplesmétodosyalgoritmosdeclasiﬁcación. Final-mente,seofrecenlasconclusionesdeesteestudio.

2.

Métodos

bayesianos

Las situaciones enlas que lossereshumanos toman deci-sionessepuedenclasificarsegúnelconocimientoycontrol quesetengasobrelasvariablesqueintervienenoinfluyen enelproblemaen3categorías:certeza,riesgo(seconoceel problema,seconocenlasposiblessoluciones,noseconocen concertezalosresultadosquepuedenarrojar,perosíla pro-babilidaddequeocurracadaresultado)eincertidumbre(se poseeinformacióndeficienteparatomarladecisión,nose tienenningúncontrolsobrelasituación,noseconocecómo puedevariarolainteraccióndelavariablesdelproblema, sepuedenplanteardiferentesalternativasdesoluciónpero no se le puede asignar probabilidad a los resultados que arrojen)4_._En_la_«_teoría_de_la_decisión_»_suele_además clasi-ficarselaincertidumbrecomoestructurada(nosesabequé puedepasarentrediferentesalternativas,perosíseconoce qué puedeocurrir entrevarias posibilidades)yno estruc-turada(nosesabe quépuedeocurrirnilasprobabilidades paralasposiblessoluciones).

Elpasodesituacionesdeincertidumbreasituacionesde riesgo,esdecir,lacuantificacióndelaprobabilidaddeque ocurra unadeterminada solución, esde vital importancia enlatomadedecisioneseconómicas.Encasoscomoelque nosocupaentrañaladiferenciaentreeléxitooelfracaso delaempresa,yaquelaprincipalactividaddeunaentidad bancariaesdarcréditosaclientes,ysiestosnoson devuel-tos laquiebradedicha entidadesinminente; porello, la disponibilidaddeunbuenmecanismoqueaventurela pro-babilidaddequeunclientedevuelvauncréditoesdecapital interésparaunaentidadfinanciera;este mecanismodebe serademásdeaccesorelativamentesencillo(muchospuntos deventaoclasificacióndirigidosporpersonalno especial-mentecualificado),sinperjuiciodequeincorporemódulos demayorcomplejidadconaccesoaloscentrosdedirección opuntosenlosquesetomenlasúltimasomásimportantes decisiones.

Los métodos y técnicasbayesianos aportan estas utili-dades;sepuedenconsiderardeconstrucción sencilla,con unasemánticaclaraytienenunenfoquesólidoyelegante; hanpresentadotradicionalmenteelproblemadesuelevado costecomputacional, problemaqueel avancetecnológico estácontribuyendoaresolverdeformarápidayeﬁcaz.

Losmodelos bayesianossirventanto pararesolver pro-blemasdesdeunaperspectivadescriptivacomopredictiva. Comométododescriptivosecentranendescubrirlas rela-ciones de dependencia/independencia. Desde esta óptica se puede aﬁrmarque a veces complementan y/o incluso superan alasreglasdeasociación. Encuantoalafunción

4_En₁₉₂₁_se_publicaron_los_trabajos_de_Keynes_y_Knigth_(A_Treatise

onProbability,CambridgeUniversity)ydeKnight(Risk,Uncertainty, andProﬁt,Boston,MA),quedistinguieronconnitidezlosconceptos deriesgo,susceptibledemediciónaldisponerdeunadistribución deprobabilidad,ydeincertidumbre,cuandonosepuedeasignar probabilidadalossucesos.

(3)

predictiva,secircunscribea lastécnicasbayesianascomo métodosdeclasiﬁcación.

Mitchell (1997)nossugiere 2 razonesdeque los méto-dosbayesianosseanalgunasdelastécnicasquemássehan utilizadoenlosproblemasdeinteligenciaartiﬁcial,el apren-dizajeautomáticoylamineríadedatos:

1. Constituyenunmétodomuyválidoyprácticopara rea-lizar inferencias con losdatosque disponemos, loque implicainducirmodelosprobabilísticosque,unavez cal-culados,sepuedenutilizarconotrastécnicasdeminería dedatos.

2. Sonextremadamenteútilesenlacomprensión deotras técnicasdeinteligenciaartiﬁcialymineríadedatosque notrabajanconlasprobabilidadesdelasquenosdotan lastécnicasbayesianas.Estacombinacióndemétodoses muyprovechosaparaoptimizarlassolucionesdealgunos problemasplanteadosenlamineríadedatos.

2.1. TeoremadeBayesehipótesismaximuma posteriori

Paracomprenderestastécnicasbayesianasvamosaempezar conelteoremadeBayes.Deﬁnamoslassiguientes expresio-nes:

• P(h)eslaprobabilidadaprioridequesecumplala hipó-tesis h. Estaprobabilidadcontieneel conocimientoque tenemosdequelahipótesishescorrecta.

• P(h/D)eslaprobabilidadaposterioridequesecumplala hipótesishunavezconocidoslosdatosD.Estaexpresión reﬂejalainﬂuenciaquetienenlosdatosobservadossobre lahipótesish.

• P(D/h)eslaprobabilidaddequelosdatosDsean obser-vadosenunescenarioenelcasodequelahipótesishsea correcta. Sabemosque: P(h∩D)=P(h)∗P(D/ h))=P(D)∗P(h/D) (2.1) Porlotanto: P(h/D) aposteriori = P(h) apriori∗ P(D/ h) P(D) Factordecorrección (2.2) ObservandolaexpresióndelteoremadeBayessabemos queP(h/D)aumentasiseincrementaP(h)yP(D/h)o dismi-nuyeP(D).

Comoyadisponemosdelafórmulaadecuadaquenosda laprobabilidadaposteriori,estamosinteresadosahoraen obtenerlahipótesis másprobable,ohipótesis MAP (maxi-mumaposteriori),unavezquesehanobservadolosdatos.

Laexpresión2.2lapodemosescribirahoracomo:

hMAP =argmaxhP(h/D)=argmax[P(h)∗P(D/ h)/P(D)] (2.3)

YalserP(D)lamismaentodaslashipótesis,laobtención delmáximosecalculaprescindiendodeestetérmino:

hMAP =argmaxhP(h)∗P(D/ h) (2.4)

hMAPeslahipótesismásprobable,dadoslosdatos

obser-vados,P(h/D). Variable clase Atributo 2 Atributo n Atributo 1

Figura1 EstructuraNaïveBaayes.

En los problemas de clasiﬁcación disponemos de una variableclase (C) y un conjunto de variables predictoras oatributos que denominaremos A1, A2, ...,An.Con estas

especiﬁcaciones el teorema de Bayes tiene la siguiente expresión:

P(C/A1,A2,...An)=

P(C)P(A1,A2,...An/C) P(A1,A2,...An)

(2.5) Enlosprocedimientosbayesianoslahipótesismás plausi-bleeslaquetienelamáximaprobabilidadaposterioridados losatributos(hipótesisMAP),cuyaexpresióneslasiguiente:

CMAP=argmax C∈˝c P(A1,A2,...An) =argmax C∈˝c P(c)P(A1,A2,...An/c) P(A1,A2,...An) =argmax C_∈˝c P(c)P(A1,A2,...An/c) (2.6)

Dondec representael conjuntodevaloresquepuede

tomarlavariableC.

En el último paso se ha eliminado el denominador, debidoaqueseríaelmismoparatodaslascategoríasdela variableC.

Estemétodosencilloyclaro poseeunproblemaquees la complejidad computacional debido a que necesitamos trabajarcondistribucionesdeprobabilidadqueinvolucran muchasvariables,loqueenlamayoríadeloscasosresulta inmanejable.

2.2. ClasiﬁcadorNaïveBayes

Eldesarrollodeestefamosoclasiﬁcador,incluidoenlagran mayoría de paquetes informáticos, se encuentra desarro-lladoenDudayHart(1973)yenLangleyetal.(1992).

Este método parte de la suposición de que todos los atributossonindependientesconocidoelvalordela varia-ble clase. Este supuesto es poco realista en la mayoría de los casos, pero aun así, en muchos casos es uno de los más competitivos comparado con otras técnicas, como las redes neuronales o los árboles de clasiﬁcación (ﬁg.1).

La estimación de los parámetros en este método ----es decir,la clase o valor a devolver---- será la resultante de aplicarlasiguientefórmula:

cMAP =argmax C∈˝c P(c)P(A1,A2,...An/c) =argmax C∈˝c P(c)˘ i=1P(Ai/c) (2.7)

(4)

Dadoslosdatosdeentrenamiento,serecorrentodosesos datosyse computa laclasiﬁcación decada uno deellos, obteniendoP(Cj)paracadaclasiﬁcaciónposible.

Cuandolosatributos sondiscretos, laestimación dela probabilidadcondicionalseextraedelabase dedatos, ya quesonlas frecuencias deaparición.Sin(xi,Pa(xi))

repre-sentaal númeroderegistrosdenuestra basede datosen elquelavariableXitomaelvalorxiyalospadresdeXilo

denotamosporPa(xi),entonceslafórmuladela

probabili-dadcondicionalvienedeterminadaporelcocienteentreel númerodecasosfavorablesyeldecasosposibles:

P(xi/Pa(xi))=

n(x,Pa(xi)) n(Pa(xi))

(2.8) Cuandolasmuestrassonpeque˜nasosiserealizan mues-treosenlosqueloscrucesdedimensionessonfrecuentes,es muyprobablequelosresultadosobtenidosseanmuy dudo-sos.Paraatenuaresteproblemaexistenprocedimientosde estimadoresbasadosensuavizados.Unodelosmás conoci-doseselestimadorbasadoenlasucesióndeLaplace,que vienedeﬁnidoporlasiguientefórmula:

P(xi/Pa(xi))=

n(xi,Pa(xi))+1 n(Pa(xi))+|alt|

(2.9) Ahoralaestimacióndelaprobabilidadvieneexpresada porelnúmerodecasosfavorables+1divididaporeldecasos totalesmáselnúmerodeposibilidadesoalternativas.

Estaestimaciónasumeunadistribuciónaprioriuniforme ynopuedeajustarseanuestrasnecesidadessiesque que-remos suavizar más o menos la probabilidad. Existe otra formade resolver el cálculo de la probabilidad: a través delm-estimador,quenoesmásqueunageneralizaciónde la corrección de Laplace. Su expresión matemática viene representadapor:

P(xi/Pa(xi))=

n(xi,Pa(xi))+mfPriori(C) n(Pa(xi))+m

(2.10) Ahora el numerador son los casos favorables más una constantemmultiplicadaporla frecuenciadeaparicióna prioridelevento,yeldenominadoreselnúmerodecasos totalesmáslaconstantem.

Cuandolosdatossoncontinuos,elestimadorNaïveBayes suponequeladistribucióndeesta variablecontinua sigue unadistribución normal.La mediaaritmética yla desvia-cióntípicaquecaracterizanaestadistribucióngaussianase estimanatravésdelosdatosmuestrales.

P(Ai/c) ∝ N(,)= 1 √ 2exp −(x−) 2 22 (2.11)

3.

Redes

bayesianas

Lasredesbayesianasseconocenenlaliteraturaexistente conotros nombres,como redes causales oredes causales probabilísticas,redesdecreencia,sistemasprobabilísticos, sistemas expertos bayesianos,o también como diagramas de influencia. Las redes bayesianas son métodos estadís-ticos que representan la incertidumbre a través de las relacionesdeindependenciacondicionalqueseestablecen entre ellas (Edwards, 1998). Este tipo de redes codifica la incertidumbre asociada a cada variable por medio de probabilidades. Kadie et al. (2001) afirman que una red

C

A

H

T

B

N

L

I

Figura2 Estructuradeunaredbayesiana.

bayesiana es un conjunto de variables, una estructura gráﬁca conectada a estas variables y un conjunto de distribucionesdeprobabilidad.

Estas redes probabilísticas automatizan el proceso de modelizaciónprobabilísticoutilizandotodalaexpresividad delosgrafospararepresentarlasdependenciasylateoría delaprobabilidadparacuantiﬁcaresasrelaciones.Enesta unión se realiza de forma eﬁciente el aprendizaje auto-mático, comola inferenciacon losdatosylainformación disponible

Unaredbayesianaquedaespecificadaformalmentepor unadupla B=(G,),dondeG esungrafo dirigidoacíclico (GDA)yeselconjuntodedistribucionesdeprobabilidad. Definimos un grafo como unpar G=(V,E), donde Ves un conjuntofinitodevérticesnodosovariablesyEesun sub-conjuntodelproductocartesianoV×Vdeparesordenados denodosquellamamosenlacesoaristas(fig.2).

Elgrafoesdirigidoyacíclico.Dirigidoporquelos enla-cesentrelosvérticesdelaestructuraestánorientados;por ejemplo,si(A,B)ЄEpero(B,A)noЄEdiremosquehayun enlaceounarcoentrelosnodosylorepresentamoscomo A→B.Cuandosedicequeesacíclicoesporquenopueden existir ciclos o bucles en el grafo, lo que signiﬁcaque si empezamosarecorreruncaminodesdeunnodonosepuede regresaralpuntodepartida.

LasconexionesdeltipoA→Bindicandependenciao rele-vanciadirectaentrelasvariables;enestecasoseindicaque BdependedeAoqueAeslacausadeByBeselefectode A.TambiénsedicequeAeselpadreyBelhijo.La ausen-ciadearcosentrelosnodosnosestáaportandounavaliosa información,ya queen este casoel grafo nos informade independenciacondicional.

Laredes bayesianastienenla habilidad decodiﬁcar la causalidad entre las variables, por lo que han sido muy utilizadasenelmodeladooenlabúsquedaautomáticade estructuras causales (López et al., 2006). La potencia de las redes bayesianas está en su capacidad de codiﬁcar las dependencias/independencias relevantes considerando no solo las dependencias marginales sino

(5)

tambiénlasdependenciascondicionalesentreconjuntosde variables.

Lamayoríadelosautoresaﬁrmanquelasredes bayesia-nastienen2dimensiones:unacuantitativayotracualitativa (Cowelletal.,1999; GarbolinoyTaroni,2002;Nadkarni y Shenoy,2001,2004;MartínezyRodríguez,2003).

Losgrafosdeﬁnenunmodeloprobabilísticoconlas mis-masdependenciasutilizandounafactorizaciónmedianteel productodevariasfuncionesdeprobabilidadcondicionada:

p(xi,x2,...xn)= n ˘

i=1p(xi|padres(xi)) (3.1)

padres(xi)sonlasvariablespredecesorasinmediatasde

lavariablexienlared,precisamentep(xipadres(xi))son

losvaloresque sealmacenanenelnodo queprecedeala variablexi

Atravésdelafactorización,lasindependenciasdelgrafo sontraducidasalmodeloprobabilísticodeformamuy prác-tica.

Las redesbayesianasrepresentan el conocimiento cua-litativo del modelo mediante el grafo dirigido acíclico. Estarepresentacióndelconocimientoestáarticuladaenla deﬁnicióndelarelacionesdedependencia/independencia. Utilizarlarepresentacióngráﬁcaatravésdelgrafohaceque lasredesbayesianasseanunaherramientamuypoderosay atractivacomorepresentacióndelconocimiento.

Estasredesbayesianasnosolomodelancualitativamente lasrelaciones,sinoquetambiéncuantiﬁcan yexpresande formanuméricalafuerzaexistenteentrelasvariables. Exis-ten3elementosquecaracterizanladimensióncuantitativa delaredbayesiana:a)el conceptodeprobabilidad,como medidadelgradodecreenciasubjetivarelativaaunevento; b)unconjunto defunciones deprobabilidadcondicionada quedeﬁnenacadavariableenel modelo,yc)elteorema deBayes,queseutilizaparaactualizarlasprobabilidades conbasealaexperiencia.

Lafuerzadelasrelacionesentrelasvariablesestá espe-ciﬁcada en las distribuciones de probabilidad como una medida dela creencia quetenemos sobreesas relaciones enelmodelo.

Los diferentestipos deredes bayesianasvienen deter-minadasporelcarácterdiscretoocontinuodelavariables involucradasenelmodelo.

Cuando las variables siguen una distribución normal multivariante N(␮,) decimos que la red es gaussiana, y entonceslafuncióndedensidadconjuntavienedeterminada porlasiguienteexpresión:

f(x)=(2)−n/2||−1/2_exp −1/2 (x−)T−1(x−) ,(3.2)

dondeeselvectordemediasn-dimensional,esla matrizdecovarianzasn×n,||eseldeterminantede yT_denota_la_traspuesta_de_.

Otrotipoderedsonlasmultinomiales,dondese consi-dera quetodas las variablesson discretas,lo que implica quetodaslasvariablestienenunnúmeroﬁnitodeposibles estados. También suponemos que las funciones de proba-bilidad de cada variable condicionada a sus predecesores (padres)son tambiénmultinomialesy,por lotanto, están especiﬁcadasenlasdiferentescombinacionesdeestadode

las variables involucradas. La reducción de parámetros a estimaresconsiderable.

Lasredesbayesianasmixtassonmuycomplicadasde deﬁ-nir,aunquesehanestudiadocasosparticulares.EnJordan (1998) se describe un ejemplo en el que se permite que unavariablecontinua tengapadres con valoresdiscretos. OtraaplicaciónlaencontramosenCastilloetal.(1998),que describenuncasoutilizandovariablesdiscretasyfunciones beta.

3.1. Algoritmosdeaprendizajeautomático

Sehacomentadoqueparaobtenerunaredbayesianaseha deespecificarunaestructuragráficayunafunciónde pro-babilidadconjunta quevieneespecificada porelproducto delaprobabilidadesdecadanododadossuspadres,loque implicaqueenlamayoríadelasocasionesnoseconocenni laestructuranilas probabilidades.Esta eslarazónporla quesehandesarrolladodiferentesmétodosdeaprendizaje paraobtenerlaredbayesianaconocidoslosdatos.

Las tareas de aprendizaje a las que se enfrentan los diferentes métodos se pueden dividir en un aprendizaje estructuralyunaprendizajeparamétrico.

En el aprendizaje estructural es donde se establecen lasrelacionesdedependenciaqueexistenentrelas varia-blesdelconjuntodedatosparaobtenerelmejorgrafoque representeestasrelaciones.Esteproblema,comoyaseha aﬁrmadoanteriormente,esbastantecomplejo,dadoquela búsquedadelaestructuraque nosrepresentemejora los datosesunproblemaNP-completo,loquelohace compu-tacionalmenteintratablecuandoelnúmerodevariableses grande.Muchasveces sebuscanalgoritmoseﬁcientesque, sibiennosonóptimos,síseaproximanalasoluciónbuscada concostescomputacionalesacotados(Neapolitan,2003).

Básicamente,losmétodos deaprendizaje dela estruc-turasepuedenenglobaren2tipos.Seencuentran,poruna parte, losmétodos que utilizanmétricas de complejidad-bondad de ajuste y algoritmos de búsqueda. La métrica definelacalidaddelaredbayesianaenfuncióndelosdatos yel algoritmo de búsqueda tratará de buscar la red que maximiceesa métricaexplorando todas las posibilidades. Hayquetenerencuentaqueelnúmerodeposibles estruc-turasgráficasaumentaconsiderablementeconelnúmerode variables.Dependiendodelamétricautilizadaydela téc-nicadebúsquedaexisteunaampliagamadeprocedimientos que pueden ir desde métodos voraces simples (Cooper y Herskovitz, 1992) hasta métodos que utilizan algoritmos genéticos(Larrañagaetal.,1996).

Otros métodos están basados en test estadísticos para detectarlasposiblesdependencias/independencias presen-tes en los datos, por lo que la red se ajustaría a estas dependenciasdescubiertas.Estosmétodosparecenmás eﬁ-cientesperopuedensermuysensiblesalosfallosenlostest, especialmentecuando en el problema están involucradas muchasvariables(Friedmanetal.,1999).

Tambiénsepuedenutilizarambasestrategiaspara opti-mizarlabúsquedayconstruirelgrafo(Campos,2006).

Eneste trabajo sehanutilizado losalgoritmos de bús-quedaK2,TANyelHC(HillClimbing).ElalgoritmoK2está basadoenlabúsquedayoptimizacióndeunamétrica baye-sianay estáconsiderado como el predecesory fuentede

(6)

inspiraciónparalasgeneracionesposteriores.Elalgoritmo K2realizaunabúsquedavorazmuyeﬁcazparaencontraruna reddecalidadenuntiemporazonable(CooperyHerskovitz, 1992).Elalgoritmodeascensióndecolinasesunalgoritmo desubidaporel máximo gradientequeestá basadoenla deﬁnicióndeunavecindad.

El algoritmoTAN (delinglésTree AugmentedNetwork) fue propuesto en 1997 por Friedman et al. (1997). Este algoritmoconsistióenunaadaptacióndelalgoritmoque pro-pusieronChowyLiuen1968.ElTANutilizaelconceptode cantidaddeinformaciónmutuacondicionadaa lavariable clase,enlugardelacantidaddeinformaciónmutua enla quesebasaelalgoritmodeChowyLiu(1968).

DadaslasvariablesdiscretasXeYylaclaseC,lacantidad deinformaciónquelavariableYnosproporcionasobrela variableX dadala variableclase escalculadaa travésde lasiguienteexpresión:

I(X,Y/C)=

x,y,c

p(x,y/c)log p(x,y,c)

p(x/c)p(y/c) (3.3) Cuandoseaprendelaestructuradelárbolentretodoslos atributos,elalgoritmoTANa˜nadelavariableclaseylahace padredetodaslasvariables.

Friedmanetal.(1997)demuestranquesielcontextoen elcuallosdatosdeentrenamientohubieransidogenerados porunaestructuraTAN,elalgoritmovistoanteriormentees asintóticamentecorrecto,lo que signiﬁcaque sila mues-tra es suﬁcientemente grande el algoritmo recuperará la estructuraquegenerólosdatos.

También se asegura que la estructura de red obtenida contienelamáximaverosimilituddelconjuntodetodaslas posibles estructuras TAN (Hernández Orallo etal., 2004). Porotraparte,lacomplejidaddeestealgoritmoesO(n2_·_N),

siendonelnúmerodeatributosyNeltama˜nodelconjunto deentrenamiento.

KeoghyPazzani(1999)proponenunalgoritmovorazque aplicaaunaestructuraNaïveBayes.Encadaunodelospasos seañadeunarcoquemejoreenmayormedidaelporcentaje deinstanciasbienclasificadas,manteniendolacondiciónde queenlaestructurafinalcadavariablenotengamásdeun padre.

Unavez conocida la estructuradela redbayesiana, el problema de la estimación de los parámetros de la red se reduce a calcular la función de probabilidad a pos-teriori p(ϑG/D, Gh), donde D representa el conjunto de

datosde entrenamiento. Los parámetrosconsisten en las probabilidadesaprioridelosnodosraízylas probabilida-descondicionalesdelas demásvariables,dadossus nodos padres.

La estimación de parámetros de la red bayesiana se encuentra en bastantes documentos, algunos de los más importantesson:SpiegelhalteryLauritzen(1990),Buntine (1991)yHeckerman(1996)

4.

Balanceo

de

las

clases

y

selección

de

variables

El conjunto de datos estudiado contiene 1.767 registros que representan a los clientes de una caja de ahorros de La Rioja que demandaron un crédito. Del total de loscasos,1.565devuelvenelcrédito,frentealos167queno

reingresanelcrédito.Existen19atributostantonuméricos como nominales aportados por el banco. Los atributos de cada cliente nos informan sobre diversas cuestiones: estado civil, sexo, edad, tipo de trabajo, código de pro-fesión, situación de la vivienda, nacionalidad, etcétera, así como otra información relacionada con el crédito: ﬁnalidad, importe solicitado, importes pendientes en su entidad bancariayen otras,patrimonio, valorneto de la vivienda,situacióndeingresos,cuotasygastosdealquiler ypréstamos,etcétera.Tambiénsabemossielcréditoseha concedidoosehadenegado.

Antes de aplicar los diferentes métodos hemos de resolver2cuestionesfundamentalesqueseabordana con-tinuación: balanceo de la variable clase y ver cuál es el conjuntodevariablesexplicativasóptimoparala clasiﬁca-ción.

4.1. Balanceodelasclases

Alahoradeaplicarlosmétodosdeclasiﬁcaciónhemosde tenerencuentacómoestándistribuidaslasinstancias res-pecto a la clase. Al no estar balanceadas las clases, los clasiﬁcadoresestaránsesgadosapredecirunporcentajemás elevadodelaclasemásfavorecida.

Paraobservarelefectoqueseproduceenelporcentaje deacierto,segúnlaclase,enlas tablas1y2sepresenta, paradiversosmétodosdeclasiﬁcación,elporcentaje correc-tamenteclasiﬁcadotantoparaeltotalcomoparacadauna delasclases.

Eltamañodelamuestrajuegaunpapeldeterminanteen labondaddelosmodelosdeclasificación.Cuandoel desba-lanceoesconsiderable,descubrirregularidadesinherentes a la clase minoritaria se convierte en una tarea ardua y de pocafiabilidad. Japkowiczy Stephen(2002)concluyen quesi losdominiossonseparableslinealmente,los mode-los no son sensibles al problema del desequilibrio de las clases.

Enel ejemplo que estamostratando podemos ver que cuandomantenemosla basededatosconlas clases dese-quilibradas todos los métodos presentan una importante diferenciadeaciertosentrelasclases.

Losmétodos declasificaciónfavorecen engenerala la clasemayoritariasalvoenelcasodelclasificadorbayesiano Naïves Bayes, que clasifica mejor a la clase minorita-ria. Se da el caso extremo en el que un clasificador, las máquinas de vectores soporte, clasifican correcta-mente a todos los de la clase mayoritaria y a ninguno de la minoritaria. Tampoco los metaclasificadores esti-mancorrectamenteambasclases.Solamenteintroduciendo un método cuyo aprendizaje sea sensible al coste se lograequilibrarlaprecisióndelosejemplosbien clasifica-dos.

Las soluciones para tratar el desbalanceo se pueden encuadraren2grupos:solucionesaniveldedatosyanivel dealgoritmos.

Las técnicas dirigidas a modiﬁcar los datos tratan de remuestrearlastallasdeentrenamiento,bienseaatravés del sobremuestreode laclase minoritaria o del submues-treodelaclasequetienemayoresinstancias.Aunqueestas técnicashandemostradosuefectividad,nodejandetener ciertos inconvenientes:pueden eliminarejemplos útilese

(7)

Tabla1 Muestradesbalanceada(1.565instanciasclaseSIy167claseNO)

Modelo ClaseSÍ(%) ClaseNO(%) Total(%) Estadísticokappa ÁreaROC

C4.5 97,3 29,3 90,8 0,335 0,734

Maq.Vect.Soporte 99,6 5,4 90,5 0,083 0,525

PerceptrónMult. 94,9 28,1 88,5 0,258 0,794

RedesBaseRadial 100,0 0,0 90,4 0,000 0,819

NaïveBayes 57,6 85,5 60,3 0,157 0,825

RedBayesiana(TAN) 93,9 52,1 89,8 0,441 0,889

RedBayesiana(K2) 93,4 50,3 89,2 0,413 0,887 RedBayesiana(HC) 94,1 46,1 89,4 0,399 0,888 Regresiónlogística 97,6 38,3 91,9 0,437 0,867 Metaclasiﬁcadores RandomForest 99,0 28,7 92,2 0,383 0,828 ADABOOST 96,1 40,1 90,7 0,404 0,878 BAGGING 98,6 21,0 91,1 0,277 0,867 STAKINGC(5modelos) 97,3 32,9 91,1 0,372 0,792 RandomCommittee 98,1 31,7 91,7 0,385 0,839 RandomSubSpace 99,6 13,2 91,3 0,204 0,871 Incorporacióndecostes Metacost1/1 97,3 31,1 90,9 0,352 0,753 Metacost3/1 94,4 41,9 89,3 0,372 0,803

incrementar los costes. Otra crítica a esta estrategia se reﬁerealcambio queserealizaenladistribuciónoriginal delconjuntodeentrenamientodelosdatos

En el tabla 2 se expresan los resultados de diferentes clasiﬁcadoresaplicadosaunamuestradondesehan balan-ceadoambasclases.Laformadeextraerlosregistrosdela clasemásnumerosahasidoaleatoria.Cuandoexiste equili-briodelasinstanciasenlabasededatos,losporcentajesde aciertodelosclasiﬁcadoresparaambasclasesestánmucho másigualados.

Eltemademuestrasdesbalanceadassehatratado exten-samenteysehanutilizado muchasestrategias,aunquese puedeafirmarquenoexisteunasoluciónconcluyentesobre quésoluciónesmejor.Hulseetal.(2007)concluyenquela decisiónsobrelamejortécnicaestáinfluidaengranmedida porlanaturalezadelclasificadorylamedidadeefectividad. Otraformaquedisponemosparacombatireldesbalance de clases es a través del establecimiento de una matriz decostes,loquesehallamadométododelcosto-sensitivo (cost-sensitive).Estemétodosebasaenlaaseveraciónde

Tabla2 Muestraequilibrada(167ejemplosparacadaclase)

Modelo %ClaseSÍ %ClaseNO %ClaseTotal Estadísticokappa ÁreaROC

C4.5 76,0 82,0 79,0 0,581 0,810

Maq.Vect.Soporte 79,0 73,1 76,0 0,521 0,760

PerceptrónMult. 74,9 75,4 75,1 0,503 0,805

NaïveBayes 60,5 83,8 72,2 0,443 0,806

RedBayesiana(K2) 79,6 84,0 81,8 0,635 0,885 RedBayesiana(HC) 80,2 81,4 80,8 0,617 0,871 Regresiónlogística 78,4 74,9 76,6 0,533 0,858 Metaclasiﬁcadores RandomForest 80,2 78,4 79,3 0,587 0,867 ADABOOST 79,6 82,0 80,8 0,617 0,862 BAGGING 82,0 80,8 81,4 0,629 0,864 STAKINGC(5modelos) 76,0 82,6 79,3 0,587 0,780 RandomCommittee 82,0 75,4 78,7 0,575 0,855 RandomSubSpace 79,6 80,8 80,2 0,604 0,851 Incorporacióndecostes Metacost1/1 79,0 79,6 79,3 0,587 0,809 Metacost3/1 70,7 85,0 77,8 0,557 0,774

(8)

queelpreciodecometerunerrordeclasiﬁcacióndebeser distintoparacada clase.Esevidenteque eneste ejemplo noes lo mismo conceder un crédito yno pagarlo que no concederlocuandosedeberíahaberconcedido.

Enestetrabajo,elclasiﬁcadorqueseaplicaparapoder comparar con el resto de los algoritmos es el metacost (Domingos,1999).Elobjetivodeesteprocedimientoses ree-tiquetarcadamuestradeentrenamientoporlaestimación delriesgodeBayes.Finalmente,elclasiﬁcadorseentrena conunmétodonobasadoencostesconelconjuntoqueya hasidoreetiquetado.

Latécnicamássencilladesobremuestreoeslaaleatoria simpleatravésdelaréplicadeejemplosenlamismaclase, peroeste métodopuedeocasionar unaltosobreajustede losclasiﬁcadores.

Como técnica más inteligente para incrementar los ejemplosdelaclaseminoritariaseencuentraelyacitado algoritmo SMOTE, originario de Chawla et al. (2002). En este método la creación de nuevas muestras se origina a travésdelainterpolación.Enunprimerpaso elegimoslos kvecinosmáscercanosyquepertenecenasumismaclase. Posteriormenteelegimoselnúmerodemuestrasartiﬁciales que se generarán, y ﬁnalmente, para generar una nueva muestrasecalculaladiferenciaentreelvectordeatributos bajoconsideración yuno de los vecinos más cercanosde loskvecinos elegidosalazar.Elresultadodeladiferencia semultiplicaporunvaloraleatorioentreceroyuno.

ElalgoritmoSMOTEsehamodiﬁcadodediferentes mane-raspara adaptarsemejor amuchos ejemplos. Algunasde estasaportacionessonlasefectuadasporHanetal.(2005), queproponenel algoritmoBorderline-SMOTEparagenerar ejemplos positivos cercanos a una frontera. Wang et al. (2006) presentan el algoritmo LLE-SMOTE (Locally Linear Embedding),queproyectaconjuntosdealta dimensionali-dada otrodemenor dimensionalidad.Eneste espaciode reducidadimensionalidadesdondeseaplicaSMOTE,y des-puéslosejemplosgeneradossontransformadosasuespacio derepresentaciónoriginal.

Otrasformasdeobtenerunarepresentaciónmayordela claseminoritariasebasanentécnicasdeagrupamiento.Por ejemplo,Japkowicz(2001)empleael algoritmode cluste-ringk-medias sobrecada clase por separado.Los clusters resultantessesobremuestreanaleatoriamentehasta conse-guirunequilibrioentrelasclases.Otrotrabajoenestalínea deinvestigacióneseldeCohenetal.(2006),quetambién exploralageneracióndenuevasinstanciasatravésde algo-ritmosdeclustering,peroenestecasoloscentroidesdelos clustersseobtienenatravésdeunalgoritmoaglomerativo jerárquico.

Encuantoalastécnicasdesubmuestreo,unadelas pri-meraspropuestasparaeditaroﬁltrarlasmuestrasde entre-namientofueelalgoritmodeEdicióndeWilson(1972), tam-biénconocidocomolaregladelvecinomáscercanoeditado (EditedNearestNeighbor).Actualmenteexistenmuchas for-masde proceder, y algunas de ellas son las siguientes: a travésdelsubmuestreoaleatoriodeJoyJapkowicz(2004) consubmuestreodirigido;elalgoritmoOne-sidesselection deKubatyMatwin(1997),contécnicasdevecindad;el algo-ritmo Neighbordhood Cleaning Rule de Laurikkala (2002) consubmuestreoaplicandoalgoritmosgenéticos(Kuncheva yJain,1999),consubmuestreopordistancia(ZhangyMani, 2003),consubmuestreoporclustering(Cohenetal.,2006)y

atravésdelaprendizajeactivodeProvost(2003).Respectoa losmétodosdeclasificaciónenentornosnobalanceadosque nocambianladistribuciónaprioridelasclases,nos encon-tramosconlassolucionesaniveldealgoritmos:aprendizaje sensiblealcoste,algoritmosdeclasificaciónconsesgohacia laclaseminoritariaylosclasificadoresdeunaclase.

En esta investigación los resultados de los diferentes clasiﬁcadores que se presentan se aplican a un conjunto de datos que se han balanceado a través de un método mixto donde se aplica el métodoSMOTE a la clase mino-ritaria y se reduce la muestra de la clase mayoritaria a través del métododel submuestreoequilibrado delcubo, propuestoporDevilleyTillé,2004.Estemétodode mues-treo eselúnico que nospermiteseleccionar unamuestra equilibrada sobre variables auxiliares con probabilidades de inclusión iguales o no. El método del cubo selecciona únicamente las muestras cuyos estimadores de Horvitz-Thompsonsonigualesalostotalesdelasvariablesauxiliares conocidas.

Delos1.575ejemplosdisponiblesquedevolvieronel cré-ditosehanseleccionado312registrosatravésdelmétodo del cubo. Para esta selección de los individuos las varia-bles auxiliaresutilizadaspor elmétododel cubohansido elestadocivil,lanacionalidad,eltipodetrabajo,las con-dicionesdelacasayeltipodetrabajodelaspersonasque solicitanel crédito. El númerode muestras queha consi-derado este método para llegar a la solución más idónea ha sido de 77.250 muestras. En la tabla 3 se presentan, para la muestra elegida, lostotales ylos estimadores de Horvitz-Thompson(quedependendelamuestra),asícomo loserroresabsolutosyrelativos,enporcentaje,entreambos paracadavariabledeequilibrio.

4.2. Métodosdeseleccióndevariables.Manto deMarkov

Elaltonúmerodevariablesrecogidasparaelestudiodeun fenómeno a veces es unproblema para el aprendizaje si elnúmerodeinstanciasoejemplosdelamuestraes redu-cido.Esteeselproblemaconocidocomolamaldicióndela multidimensionalidad.

Aunque,comoseverámásadelante,lasoluciónescogida serealizaatravésdelaenvolventedeMarkov,enla litera-turadeseleccióndevariablesexisten2métodosgenerales paraescogerlasmejorescaracterísticasdelabasededatos: métodosdeﬁltroymétodosbasadosenmodelos.Enlos pri-merosseﬁltranlosatributosirrelevantesantesdeaplicarlas técnicasdemineríadedatos.Elcriterioqueestablecelas variablesóptimassebasaenunamedidadecalidadquese calculaapartirdelosdatosmismos.Enlosmétodosbasados en modelos, también conocidos como métodos de envol-venteowrapper,labondaddelaseleccióndelasvariables seevalúaatravésdeunmodeloutilizando,lógicamente,un métododevalidación.

Enelcaso delaseleccióndeatributosdebemos deﬁnir un algoritmo que evaluará cada atributo individualmente delconjunto dedatosinicial, quesedenomina«attribute evaluator», y unmétodo de búsqueda que hará una bús-quedaenelespaciodeposiblescombinacionesdetodoslos subconjuntosdelconjuntodeatributos.

(9)

Tabla3 Resultadosdelsubmuestreoequilibrado.Métododelcubo

Totales EstimadoresHT Errorabsoluto Errorrelativo

Uno 1.575 1.575,0 0,00 0,00 Casado 882 879,3 ---2,71 ---0,31 Separado 128 125,6 ---2,39 ---1,86 Soltero 565 570,1 5,09 0,90 Espa˜nol 1.419 1.420,4 1,40 0,10 Extranjero 156 154,6 ---1,40 ---0,90 Fijo 921 917,9 ---3,06 ---0,33 Temporal 216 212,6 ---3,42 ---1,58 Autónomo 125 125,6 0,61 0,49 Pensionista 77 77,3 0,30 0,39 Otrostrabajos 236 241,6 5,56 2,36 Libre 482 473,5 ---8,53 ---1,77 Hipotecada 597 599,1 2,08 0,35 Alquiler 133 135,3 2,28 1,71 Domiciliofamilia 297 299,5 2,54 0,86 Otrasviviendas 66 67,6 1,64 2,48 Técnicosuperior 91 87,0 ---4,04 ---4,44 Mandointermedio 108 106,3 ---1,71 ---1,58 Administrativo 112 116,0 3,95 3,53 Obreroespecializado 167 164,3 ---2,74 ---1,64 Obrero 570 570,1 0,09 0,02 Noliberal 104 106,3 2,29 2,20 Amadecasa 189 193,3 4,25 2,25 Pensionista 80 77,3 ---2,70 ---3,37 Otrasprofesiones 154 154,6 0,60 0,39

De esta forma podremos evaluar independientemente cada una de las combinaciones de atributos y, con ello, seleccionarlasconﬁguracionesdeatributosquemaximicen lafuncióndeevaluacióndeatributos.

Para resolver el problema de plantear combinaciones deatributos ola funciónqueevalúa cada subconjuntode atributoes precisoutilizar unalgoritmo debúsquedaque recorraelespaciodeposiblescombinacionesdeunaforma organizada,oadecuadaalproblema.

Ademásdelmétododelascomponentesprincipales, exis-ten2tiposdeevaluadores:evaluadoresdesubconjuntoso selectores(SubSetVal)yprorrateadoresdeatributos (Attri-buteEval).

Los SubSetVal necesitan una estrategia de búsqueda

(Search Method) ylos AttributeEvalordenan las variables segúnsurelevancia,asíquenecesitanunRanker.

Habitualmente, enlas situacionesenla queseemplea selección de atributos no es posible hacer un recorrido exhaustivo enel espacio decombinaciones,por lo que la selección adecuada de un algoritmo de búsqueda resulta crítica.

Para esta base de datosse utiliza,en primer lugar, el algoritmoevaluadordeatributos«CfsSubsetEval»,delque disponenya muchos programas. Este algoritmo es el más sencillo, yaque puntúa a cada atributo enfunción de su entropía.Comoalgoritmodebúsquedautilizamoslos algo-ritmos genéticos. Ensegundo lugar recurrimos al método Rankerparaquenosfaciliteunaordenacióndelosatributos segúnsuimportancia.

Los algoritmosgenéticos propuestospor Holland(1975) suponenunodelosenfoques másoriginalesenla minería

dedatos. Seinspiran enel comportamientonatural dela evolución,yparaellosecodiﬁcacadaunodeloscasosde pruebacomo unacadena binaria(que seasemejaría aun gen).Esta cadenase replicao seinhibe enfuncióndesu importancia,determinadaporunafuncióndenominadade ajusteoﬁtness.

Los algoritmos genéticos son adecuados para obtener buenasaproximacionesenproblemasdebúsqueda, apren-dizajeyoptimización(Marczyk,2004).

Lasoluciónquenosparecemásóptimayadecuadaaeste problemaencuantoalnúmerodevariablesutilizadasenla aplicaciónde losmodelos yalgoritmos declasiﬁcaciónes seleccionarlosatributosparalaclasiﬁcaciónatravésdelos resultadosobservadosenelmantodeMarkov.

LaenvolventedeMarkovparaunavariablerepresentael conjunto devariables delas que depende dicha variable. Así,si aplicamosla envolvente o mantodeMarkov a esta redbayesiana,deﬁnidaestaenvolventecomo:

(Padres(X) U Hijos U Padres(Hijos(X))) (4.1) obtenemosquelas19variablesoriginalessehanreducido a11, dado que 8de ellasnocontienen información rele-vanteconocidaselrestodevariables.Elgrafoquemuestra laestructura dedependencias/independenciasesel dela ﬁgura3.

EstaﬁgurasehaobtenidoutilizandoelalgoritmoHC,que partedeunareddeenlacesvacíayempleaunamétricaBIC (BayesianInformationCriterion)comométodode aprendi-zaje.

Enestaredsepuedenobservarlasrelacionesde depen-denciadirectaseindirectasentrelasvariables.Entreestas

(10)

SALDOMEDVINVI NUMCPNUNIFAM IMPCUO CLASE IMPPMO CIVIL IMPVALVIV FINALIDAD VIVIENDA NACIONALIDAD INGRESOS PROFESION

Figura3 EstructuradelaredbayesianaaplicandolaenvolventedeMarkov.

dependencias podemos destacar, entre otras, la relación entrela cuotadelcrédito(IMPCUO), el importe(IMPPMO) ylaﬁnalidadalaquesedestina(FINALIDAD).Otrarelación interesanteeslaqueseobservaentrelanacionalidad,los ingresosyla profesión,yentrela nacionalidad yel saldo medionovista.

Aesta estructura derelaciones entre las variableshay que a˜nadir que todos los nodos tienen una probabilidad asignada,aligualqueunaprobabilidadcondicionadaalos valoresdelcualdependensuspadres.Esestaestructurade probabilidades,juntoconlacapacidaddescriptivadelared,

laquedotaalosmétodosbayesianosdeunamayoreﬁcacia, potenciayversatilidadrespectoaotrosmétodosno probabi-lísticos.VéaseComoejemplodelasmúltiplesposibilidades queseofrecen,véanse2tablasdeprobabilidadesasociadas alasrelacionesentrelasvariablesdelascualesdependen (tablas4y5).

Elprocesodediscretizacióndelas variables cuantitati-vas necesarias para la estimación de la red bayesiana se ha realizado a través del método de la mínima entropía propuesto por Fayyard y Irani (1993). Eneste método se seleccionanlospuntosdecortedeformarecursivamediante

Tabla4 DistribucióndeprobabilidadesparalavariableIMPCUOylavariableCLASE Importedelacuota

Clase <41 41-238,5 238,5-249,9 249,9-251,7 251,7-429,7 >429,7 Total

SÍ 0,125 0,490 0,027 0,151 0,135 0,071 1

(11)

Tabla5 Distribucióndeprobabilidades.Variable:INGRESOS,NACIONALIDADyIMPVALVIV Ingresos

Nacionalidad Valorvivienda <22.983 _≥22.983 Total

Espa˜nol <27.022 0,881 0,119 1

Extranjero ≥27.022 0,710 0,290 1

Espa˜nol <27.022 0,963 0,037 1

Extranjero _≥27.022 0,936 0,064 1

Tabla6 ResultadosconSMOTEymétododelcubo

Modelo ClaseSÍ(%) ClaseNO(%) Total(%) Estadísticokappa ÁreaROC

Fasedeentrenamiento

C4.5 82,7 84,8 83,8 0,672 0,823

Maq.Vect.Soporte 83,0 82,6 82,8 0,656 0,828

PerceptrónMult. 80,4 86,5 83,4 0,669 0,880

NaïveBayes 73,1 85,8 79,4 0,589 0,882

RedBayesiana(K2) 86,2 86,1 86,2 0,724 0,930 RedBayesiana(HC) 85,6 84,5 85,0 0,701 0,929 Regresiónlogística 83,7 83,5 83,6 0,672 0,922 Metaclasiﬁcadores RandomForest 86,9 81,9 84,4 0,688 0,920 ADABOOST 87,2 85,5 86,3 0,727 0,927 BAGGING 86,5 85,8 86,2 0,724 0,940 STAKINGC(5modelos) 85,6 85,8 85,7 0,714 0,932 RandomCommittee 84,3 89,7 87,0 0,740 0,935 RandomSubSpace 84,0 88,4 86,2 0,724 0,927 Incorporacióndecostes Metacost1/1 82,4 82,3 82,3 0.6463 0.838 Metacost3/1 79,8 86,8 83,3 0.6657 0.841 Fasedetest C4.5 71,4 75,0 73,1 0,462 0,726

Maq.Vect.Soporte 71,4 91,7 80,8 0,620 0,815

PerceptrónMult. 78,6 66,7 73,1 0,455 0,792

NaïveBayes 50,0 91,7 69,2 0,402 0,881

RedBayesiana(TAN) 78,6 91,7 84,6 0,694 0,827

RedBayesiana(K2) 78,6 91,7 84,6 0,694 0,857 RedBayesiana(HC) 78,6 83,3 80,8 0,615 0,804 Regresiónlogística 78,6 83,3 80,8 0,615 0,911 Metaclasiﬁcadores RandomForest 78,6 75,0 76,9 0,536 0,833 ADABOOST 78,6 75,0 76,9 0,536 0,875 BAGGING 71,4 91,7 80,8 0,620 0,851 STAKINGC(5modelos) 78,6 83,3 80,8 0,615 0,875 RandomCommittee 78,6 75,0 76,9 0,536 0,827 RandomSubSpace 78,6 83,3 80,8 0,615 0,869 Incorporacióndecostes Metacost1/1 71,4 83,3 76,9 0,541 0,762 Metacost3/1 71,4 83,3 76,9 0,541 0,762

(12)

unalgoritmodeminimizacióndelaentropíausandoel cri-terio de «longitud de descripciónmínima» propuesto por Suzuki(1996).

5.

Resultados

obtenidos.

Comparación

de

clasiﬁcadores

Losresultadosqueseofrecenenesteepígrafeseresumen enlatabla6,dondesedetallanlosresultadosparael con-juntodedatoscon11variablesqueseseleccionanalaplicar losresultadosobservadosenelmantodeMarkov.Entodas lasprediccionesquearrojanlosmodelosutilizadosse mues-tranelporcentajetotaldeaciertos,desglosadosparaambas clases,ylasmedidasdeevaluacióndelos16modelosque sehanutilizado.

Lasinstanciasutilizadashansidoextraídasaplicandoala basededatosoriginalelmétododelcuboalaclase domi-nanteyelmétododesobremuestreodenominadoSMOTEa la clase minoritaria, descritos brevemente en las páginas anteriores.Alaplicarestos2procedimientosseobtieneuna base de datos que contiene 312 individuos de la clase SÍ (devuelven el crédito) y310 de la clase NO (nopagan el crédito).

Losmétodosempleadosenlaclasificaciónsonlos siguien-tes: regresión logística, máquinas de vectores soporte, 2 modelos de redes neuronales, el C.4.5 como árbol de clasificación, 6métodos multiclasificadoresy elalgoritmo Metacostconysinmatrixdecostes.Losresultadosdetodos losmodelossoncomparadosconlosqueseobtienenatravés delosmétodosestadísticosbayesianosexplicados anterior-mente.Enconcreto,sehanaplicado3redesbayesianasque buscanyoptimizanlamétricabayesianaatravésdelos algo-ritmosK2,HC(HillClimbing)yTAN(TreeAugmentedNaïve Bayes).

El multiclasificador Stacking se configura con 5 mode-los:perceptrónmulticapa,redbayesiana conelalgoritmo debúsquedaK2,regresiónlogística,máquinasdevectores soporteyelárboldeclasificación,C4.5.

En la tabla 3 se presentan los resultados de todos los modelos estudiados con 15 variables tanto en la fase de entrenamientocomoenlafasedetest,realizadaestacon 26 registros seleccionados aleatoriamente de la base de datos.

Comocuestiónmásdestacadapodemosaﬁrmarque2de los 3 modelos de redes bayesianas alcanzan, en la fase detest, losmejoresresultados enprecisión deaciertos y en los valores del estadístico kappa: TAN y K2 obtienen unporcentajedeaciertosdel84,6%yvaloresdel estadís-ticokappadel0,694. Tambiénson estos2modelos,junto con algunos otros, los que pronostican el mayor número deaciertos en la clase NO(no seconcede el crédito). El área bajo la curva ROC es bastante elevada (0,827). La red entrenadacon HC alcanza el 80,8% de registros bien clasiﬁcados y obtiene valores más bajos en los estadísti-cos.

Unaparticularidaddelosmodelosderedesbayesianoses quemantienenunasimilarprecisiónenelporcentajeglobal devaloresbienpronosticados,tantoenlafasede entrena-mientocomoenlafasedetest,cuestiónquenoocurreen elrestodelosmodelosenesta fase,que,porotraparte, eslafasequerealmenteimporta,dadoquemuchosdelos

métodos de minería de datostienden a sobreajustarse a losdatosenlafasedeentrenamiento.

También se observa que en la fase de entrenamiento todoslosmodelosindividualesutilizados sonmenos preci-sosquelosmulticlasiﬁcadores,siobservamoselporcentaje de aciertos, el estadístico kappa y el área ROC. Entre estos,elquemásaciertaeselRandomCommittee(87,0%). La regresión logística también ofrece, en esta etapa, buenos resultados (83,6%), al igual que los árboles de decisión.

Enlafasedetest,entrelosmulticlasiﬁcadores,3deellos presentanun80,8%deaciertos:Stacking,BaggingyRandom Subspace.Stacking,aligualquelaredesbayesianas,TAN,K2 yHC,delas12instanciasdelaclaseminoritariaymás impor-tanteentérminosdecoste,predicencorrectamente11de ellas,osea,el91,7%,yrespectoalaotraclase, económica-mentemenosimportante,elmétodoBaggingalcanzasoloel 71,4%delosregistroscorrectamenteclasiﬁcados,mientras queTANyK2lleganal78,6%.

6.

Conclusiones

Comoresumen delanálisisdelosdatosyla aplicaciónde losmodelosutilizadosenesteartículopodemosextraerlas siguientesconclusiones:

• Lautilizacióndelasredesbayesianasconunóptimo equi-libradodelasinstancias,unidoalacorrectaseleccióndel conjuntodevariablesexplicativasparalaresolucióndel problemadelcreditscoring,noshaconducidoaobtener excelentesresultados enla fasede entrenamientoy la mayorprecisiónenlafasedetest.

• Además,las redesbayesianasseconvierten enmodelos muyóptimosdadoquepuedenincorporarinformaciónde losexpertoseneláreadeestudioyoptimizaraúnmásel porcentajedeaciertos.

• Cuando las bases de datos están desbalanceadas, las mejores opciones se experimentan cuando se equi-libran las muestras. Por el análisis de la extensa bibliografía existente se constata que existen muchas propuestas que intentan solucionar este problema sin que aún exista la solución ideal, y que los resulta-dos dependen de las características intrínsecas de los datos.

• Cuandoelcosteeconómicodelaclasiﬁcaciónesdiferente segúnlasclases,comoenelcreditscoring,incorporarla matrizdecostes esmuyconveniente.Algunosmétodos, como el Metacost, obtienen resultadosmuy aceptables ponderandolamatrizdecostes,yaqueoptimizanel aná-lisiscoste-beneﬁcio.

• Laseleccióndevariablesesunatareaimprescindiblepara buscar modelos mássencillos e interpretables. Eneste sentido,laayudadelaenvolventedeMarkovhareducido signiﬁcativamenteelnúmerodevariables,mejorandola interpretabilidaddelmodeloelegido.

• También podemos aﬁrmar que, para resolver el pro-blemadelcreditscoring,losmétodosmulticlasiﬁcadores obtienenbuenos resultadosy, engeneral,son más pre-cisosquecuandolosalgoritmossonutilizados individual-mente.

(13)

Bibliografía

Bonilla, M., Olmeda, I., Puertas, R., 2003. Modelos paramétri-cosynoparamétricosenproblemasdecreditscoring.Revista Espa˜noladeFinanciaciónyContabilidadXXXII.

Buntine,W.,1991.TheoryreﬁnementonBayesianNetworks.En: ProceedingsofSeventhConferenceonUncertaintyinArtiﬁcial Intelligence,LosAngelesCA,pp.52---60.

Campos, L.M., 2006. A scoring function for learning Bayesian networksbased on mutualinformation and conditional inde-pendence tests. Journal of Machine Learning Research 7, 149---2187.

Castillo,E.,Gutierrez,J.M., Hadi,A.,1998.Sistemas Expertosy ModelosdeRedesProbabilísticas.MonografíasdelaAcademia deIngeniería.

Chawla, N.V.,Bowyer, K.W.,Hall,L.O., Kegelmeyer, W.P.,2002. SMOTE:SyntheticMinorityOver-SamplingTechnique.Journalof ArtiﬁcialIntelligenceResearch16,321---357.

Chow,K.,Liu,C.N.,1968.Approximatingdiscreteprobability distri-butionswithdependencetrees.IEEETransactionsonInformation TheoryIT-14,462---467.

Cohen, G., Hilario, M., Sax, H., Hugonnet, S.Y., Geissbuhler, A., 2006. Learning from imbalancing data in surveillance of nosocomial infection. Artiﬁcial Intelligence in Medicine 37, 7---18.

Cooper,G.,Herskovitz,E.,1992.ABayesianmethodforthe induc-tionofprobabilisticnetworksfromdata.MachineLearning9, 309---348.

Cowell,R.G.,David,A.P.,Lauritzen,S.L.,Spiegelhalter,D.J.,1999. ProbabilisticNetworksandExpertSystems.Springer-Verlag,New York.

Deville,J.-C.,Tillé,Y.,2004.Eﬁcientbalancedsampling:Thecube method.Biometrika91,893---912.

Domingos,P.,1999.MetaCost.Ageneralmethodformaking classi-ﬁerscost-sensitive.FifthInternationalConferenceonKnowledge DiscoveryandDataMining,155---164.

Duda,R.O.,Hart,P.E.,1973.PatternClassiﬁcationandScene Analy-sis.JohnWiley&Sons,NewYork.

Edwards, W., 1998. Hailﬁnder. Tools for and experiences with bayesian normative modeling. American Psychologist 53, 416---428.

Fayyard, U.M., Irani,K.B., 1993. Multi-interval discretization of continuousvaluedattributesforclassiﬁcationlearning.En: Pro-ceedings oftheThirteenth International JointConference on Artiﬁcial Intelligence, San Francisco, CA Morgan Kaufmann, pp.1022---1027.

Friedman,N.,Geiger,D.,Goldszmidt,M.,1997.Bayesiannetworks classiﬁers.MachineLearning29,131---167.

Friedman,N., Getoor, L.,Köller, D., Pfeffer, A.,1999. Learning probabilistic relational models. Proceedings of the Sixteenth International Joint Conferences on artiﬁcial Intelligence, 1300---1309.

Garbolino, P., Taroni, F., 2002. Evaluation of scientiﬁc evidence using Bayesian networks. ForensicScience International 125, 149---155.

Han H, Wang W, Mao B. (2005)Borderline-SMOTE: A new Over-SamplingMethodinImbalancedDataSetsLearning.En:Huanng D.S.,ZhzngX.-P.,HuangG.-B.,editors.ICICS,vol.3644deLNCS, pp.878-887.

Heckerman,D.,1996.AtutorialonlearningwithBayesiannetworks. Microsoft Reseach, Redmon, WA, Tech. Rep. N.◦ MSR-TR-95-06.

Hernández Orallo,J., Ramírez Quintan, M.J.,FerriRamírez, C., 2004. Introducción a lamineríade datos. Pearson - Prentice Hall.

Holland,J.H.,1975.AdaptationinNaturalandArtiﬁcialSystems. TheUniversityofMichiganPress(TheMITPress,London,1992).

HulseJ.V.,KhoshgoftaarT.M.,NapolitanoA.(2007)Experimental perspectives onlearning from imbalanced data. En: Ghahra-maniZ.editor.ICML,vol.227deACMInternationalConference Proceedingseries,pp.935-942.

JapkowiczN.(2001)Concept-LearninginthePresenceof Between-ClassandWithin-ClassImbalances.En: StrouliaE.,MatwinS., editors.CanadianConferenceonAI,vol.2056deLNCS,pp. 67-77.

Japkowicz,N.,Stephen,S.,2002.Theclassimbalanceproblem:A systematicstudyintelligentdata.AnalysisJournal6,1---32. Jo,T.,Japkowicz,N.,2004.Classimbalancesversussmalldisjuncts.

SIGKDDExplorations6,40---49.

Jordan,M.I.(Ed.),1998.LearninginGraphicalModels.Kluwer, Dor-drecht,Netherlands.

Kadie,C.M.,Hovel,D.,Hovitz,E.,2001.Acomponent-centric tool-kitformodelingandinferencewithBayesiannetworks.Microsoft Research,Richmond,WA,TechnicalReportMSR-TR-2001-67,pp. 13---25.

Keogh, E.J., Pazzani, M., 1999. Learning augmented Baye-sian classiﬁers: A comparison of distribution-based and non distribution-basedapproaches.En:Proceedingsofthe7th Inter-nationalWorkshoponArtiﬁcialIntelligenceand Statistics,pp. 225---230.

KubatM.,Matwin S.(1997)AddressingtheCourseofImbalanced TrainingSets:One-SidedSelection.En:FisherD.H.,editor.ICML, pp.179-186.

Kuncheva,L.,Jain,L.C.,1999.Nearestneighborclassiﬁer: Simulta-neouseditingandfeatureselection.PatternRecognitionLetters 20,1149---1156.

Langley,P.W., Iba, P., Thompson, K.,1992. An analysisof Baye-sian classiﬁers.En:ProceedingsofTenthNationalConference on Artiﬁcial Intelligence. AAAI Press, Menlo Park, CA, pp. 223---228.

Larra˜naga, P., Poza, M., Yurramendi, Y., Murga, R.H., Kuijpers, C.M.H.,1996.StructurelearningofBayesiannetworksby gene-ticalgorithms:Aperformanceanalysisofcontrolparameters. PatternAnalysisandMachineIntelligence,IEEETransactionson Sep199618,912---926.

Laurikkala,J.,2002. Instance-baseddatareduction forimproved identiﬁcationofdifﬁcultsmallclasses.IntelligentDataAnalysis 6,311---322.

López,J.,García,J.,delaFuente,L.,2006.Modeladocausalcon redes bayesianas.ActasdelasXXVIIJornadasdeAutomática, 198---202.

Marczyk,A.,2004.Geneticalgorithmsandevolutionary computa-tion.TheTalkOriginsArchive.

Martínez,I.,Rodríguez,C.,2003.Modelosgráﬁcos.En:delÁguila, Y.,Artés, E.M.,Juan, A.M.,Martínez,I.,O˜na, I.,Ortiz,I.M., etal.(Eds.),Técnicasestadísticasaplicadasalanálisisdedatos. ServiciodePublicacionesdelaUniversidaddeAlmería,Almería, pp.217---257.

Mitchell,T.M.,1997.MachinLearning.MacGraw-Hill.

Nadkarni,S.,Shenoy,P.P.,2001.ABayesiannetworkapproachto makinginferencesincausalmaps.EuropeanJournalof Opera-tionalResearch128,479---498.

Nadkarni,S., Shenoy,P.P., 2004. A causal mapping approach to constructing Bayesiannetworks.DecisionSupport Systems38, 259---281.

Neapolitan,R.E.,2003.LearningBayesianNetworks.PrenticeHall, NewYork,NY,USA.

ProvostF.2003.Machinelearningfromimbalanceddatasets101 (ExtendedAbstract).En:AAAI:WorkshoponLearningwith Imba-lancedDataSets.

Spiegelhalter,D.J.,Lauritzen,S.L.,1990. Sequentialupdatingof conditionalprobabilitiesondirectedgraphstructures.Network 20,579---605.

Suzuki,J., 1996.LearningBayesianBeliefNetworkBasedonthe Minimum Description Length Principle: AnEfﬁcient Algorithm

(14)

Using the B&B Technique. En: Proceedings of the Thir-teenth International Conference on Machine Learning, pp. 462---470.

WangJ., XuM., WangH.,ZhangJ.2006. Classiﬁcation of Imba-lancedDatabyUsingtheSMOTEAlgorithmand locallyLinear Embedding.En:ICSP,vol.3,pp.16-20.

Wilson,D.L.,1972.Asymptoticpropertiesofnearestneighbourrules usingediteddata,IEEETransactionsonSystems,Manand Cyber-netics.IEEEComputerSocietyPress,LosAlamos.

Zhang, J.,Mani,I.,2003. kNNapproach tounbalanceddata dis-tributions:Acasestudyinvolvinginformationextraction.ICML: WorkshoponLearningfromImbalancedDatasetII.

www.elsevier.es/cesjef

Modelos

52---60.

7,149--2187.

Sistemas

321---357.

462---467.

37,7---18.

9,309---348.

Probabilistic

893--912.

155---164.

Pattern

53,416---428.

1022---1027.

131--167.

Learningprobabilistic

125,149---155.

A

Introducción

1992).

6,

40---49.

Learning

1149--1156.

An

912---926.

311---322.

Modelado

Genetic

217---257.

Machin

479---498.

38,259---281.

Learning

579---605.

Learning

Asymptotic

kNN