Data cleaning - : Data Description and Sources

Chapter 5 : Data Description and Sources

5.6 Data cleaning

El algoritmo UNICYCLE-TO-TREE, mostrado en el Pseudocódigo 10, transforma un gra-

fo unicicloU_{a un árbol}T(U)_{. Esta transformación no es tan sólo la eliminación de una} arista de U_{, puesto que} T(U) _{tiene que satisfacer algunos requerimientos, como se} explica a continuación. La entrada para este algoritmo es el grafo unicicloU= (V_U, E_U) con un marcado M_N,₀[₂] _{que representa un conjunto 2-packing máximo para} U_{. Su-} ponga que _N,₀ _{es el vértice origen de} U _{y que pertenece al bloque cíclico. La salida} de este algoritmo es el árbolT(U) = V_T₍_U₎, E_T₍_U₎_{, tal que existe una función biyectiva} ƒ _:V_U_→V_T₍_U₎_{. Además, el marcado}M_N,0[₁] _de T(U)_{representa un conjunto 2-packing} máximo, y éste es igual al marcado MN,₀[1] del algoritmo de Mjelde (2004), cuando se le aplica aT(U)_{, suponiendo} ƒ(_N,0)_{como el vértice origen.}

Pseudocódigo 10:UNICYCLE-TO-TREE(U)

Entrada:_{Un grafo uniciclo no dirigido}U_{enraizado en}N,₀del bloque cíclicoBNy un marcado MN,₀[2] deUque representa un conjunto 2-packing máximo.

Salida :Un árbolT₍U₎_{con un marcado}M_N,₀_[₂_{] =}M_N,₀_[₁_{] =}_M_N,₀_[₁_]_{, el cual representa un}

conjunto 2-packing máximo.

1 begin

2 Aplicar BFS(U, N,₀) e identificar, p(), z, y, la aristae₁; 3 T(U)←U;

4 Borre todas las aristas deP₁enT(U);

5 Agregue una arista entre cada vérticeƒ(N,m)aƒ(p()), tal queN,m∈P₁enU,N,m6=y, y N,m6=z;

6 returnT(U); 7 end

(a) Un grafo uniciclo U _{con su marcado} MN,₀[2]

(b) El árbol transformado,T(U)_{, con su mar-}

cadoMN,₀[1]

Figura 7._{Transformación de un grafo uniciclo a un árbol.}

2.4.1. Descripción de la transformación

SeaU_{un grafo uniciclo y}B_N_{su bloque cíclico correspondiente. Suponga que}M_N,0[₂] representa un conjunto 2-packing máximo paraU_{calculado con el algoritmo M}_AXIMUM_- 2-PACK-UNICYCLE cuando N,₀ es el vértice origen. El proceso para crear el árbol T(U) deU _{es como sigue.}

La línea 2 del Pseudocódigo 10 identifica los vértices , p(), z, y, y la arista e₁_{. El vértice} _ _{es el vértice marcado más cercano a} _N,₀ _en U_\T+

N,₀. El algoritmo

identifica  mediante BFS en U, suponiendo que N,₀ es el vértice origen. Si existe más de un vértice _ _{que satisface este criterio,} _ _{es el vértice cuyo identificador} único es el más bajo. Seap(_)_{el padre de}_ _{en el árbol BFS. Sea}_z _{el primer vértice} en el camino de _ _a _N,₀ _{que pertenece al bloque cíclico} B_N_{. Observe que} _z _puede ser__,p(_)_op(p(_))_{. Sea}e₁_{la primera arista en el camino de}_N,₀_a _ _{en el árbol} BFS. Sea P _{el camino de} _z _a _N,₀ _{en el ciclo} B_N _{que no pasa por la arista} e₁_{. Sea}

_y₆=_z _{el primer vértice marcado en}P_{. Si dicho vértice no existe, entonces}_y _←_N,₀_. Sea P₁_⊆P _{el camino de}_z _a _y_{. La línea 3 crea una copia de} U _{y le asigna el nombre} deT(U)_{. Posteriormente, la línea 4 borra todas las aristas de}P₁_enT(U)_{. Finalmente, la} línea 5 agrega una arista por cada vérticeƒ(_N,m)_aƒ(p(_))_enT(U)_{, tal que}_N,m_∈P₁ enU_,_N,m₆=_y_{, y} _N,m₆=_z_.

Ejemplo 2_{. Considere el uniciclo} U _{de la Figura 7(a). En esta figura, los vértices} resaltados representan aS_

N,₀[2]. Las líneas punteadas denotan aT_+

N,z. La Figura 7(b)

es el árbol resultante,T(U)_{, después de la ejecución de U}_NICYCLE_-T_O_-T_REE _en U _{con el} conjunto S_

N,₀[2]. En la Figura 7(b), los segmentos de líneas representan las aristas

eliminadas de U_{, mientras que las líneas gruesas representan a las nuevas aristas} agregadas aT(U)_{. Finalmente, observe que cada vértice en}U_{le corresponde un vértice} enT(U)_{y los marcados} M_

N,₀[2] yMN,₀[1] son iguales.

2.4.2. Demostración de que UNICYCLE-TO-TREE es correcto

Sea U= (V_U, E_U) _{un grafo uniciclo que contiene un bloque cíclico} B_N_{. Sea} M_N,0[₂] un marcado deU_{calculado por M}_AXIMUM_-2-P_ACK_-U_NICYCLE _{que representa un conjunto} 2-packing máximo, suponiento_N,₀_{como el vértice origen.}

Lema 2.10 El marcado M_N,0[₂] de U es igual al marcado M_N,0[₁] de T(U) generado por UNICYCLE-TO-TREE.

Demostración._{Suponga, sin pérdida de generalidad, que} T+ N,₀ =

_N,₀_{. Se demuestra} que ningún vértice cambia su marcado en cada uno de los dos subárboles enraizados enƒ(_N,0)_de T(U)_.

Caso 1_{. Sea} N,m cualquier vértice de P₁ en U, excepto z y y. Sea _m el vértice marcado (si existe) más cercano a_N,m _en T+

N,m. Observe que

_N,m ₆=

m, puesto que N,m∈/ SN,0[2].

El marcado MN,m[0] es el mismo en U y T(U) puesto que dicho subgrafo es el mismo. Observe que existe un camino de dos aristas entre ƒ(_N,m) _y ƒ(_) _en T(U)_, y que existe un camino de a lo más tres aristas entre ƒ(N,m) y ƒ



el camino de ƒ(_) _a ƒ m

tenga a lo más cinco aristas. Puesto que ƒ(_) _y ƒ m

pertenecen aS_N,0[₂]_{, ningún otro vértice en dicho camino puede cambiar su marcado} enT(U)_{. Este argumento se mantiene para todo vértice} ƒ(_N,m)_.

De forma semejante, note que  es un vértice marcado en U y T(U), y que la distancia entre

m y es al menos tres en T(U). Luego, el marcado deT+N,z en

U _es el mismo que el marcado enT(U)_{. En otras palabras, el marcado de cualquier vértice} 

m no altera el marcado de ningún vérticeƒ(), donde()∈T+N,z en

U_.

Note que el camino más corto entre N,₀ y en U es a lo más tres. Dicho camino también existe enT(U) _entre ƒ(_N,0) _yƒ(_)_{. Puesto que} _ _y ƒ(_) _{son vértices mar-} cados en U _y T(U)_{, respectivamente, entonces el marcado en ambos caminos es el} mismo. Por lo tanto, los vértices marcados en ambos subárboles enraizados en_N,₀ _en U_yƒ(N,0)enT(U)son los mismos.

Caso 2. Suponga queƒ(_y)₆=ƒ(_N,0)_{. Sea}P₂_{el camino de}_y_a_N,₀_{que no pasa por} la aristae₁ _en U_{. El camino} P₂ _{también existe en} T(U) _entre ƒ(y)y ƒ(N,0). Observe que el subgrafo inducido por todos los vértices enP₂_∪C+

N,k, para todo

_N,k _∈P₂ _en U es el mismo para el subgrafo inducido por sus vértices correspondientes enT(U)_{. Sea} _ ₆= _z _{el vecino de} _y _en P₁ _{(vea la Figura 7). Puesto que} _y _y ƒ(_y) _{son vértices} marcados en U _y T(U)_{, respectivamente, entonces la eliminación de la arista entre} ƒ(_) _y ƒ(_y) _{no altera el marcado de} ƒ(_y) _{ni el marcado de los vecinos de} ƒ(_y) _a distancia menor o igual que dos en T(U)_{. Por lo tanto, el marcado de los vértices en} este subárbol es el mismo paraU_yT(U)_.

Cuando ƒ(y) = ƒ(N,0), no hay nada por demostrar puesto que hay tan solo un subárbol enraizado en ƒ(_N,0) _en T(U)_{, y el Caso 1 maneja este caso. Cuando} T+

N,₀ 6=

N,₀, dicho subgrafo es el mismo enU yT(U)y sus marcadosMN,0[0] son iguales.

Note que puesto que ningún vértice cambia su marcado en los subárboles enraizados en ƒ(N,0) de T(U), entonces ƒ(N,0) no puede cambiar su marcado en T(U).

Lema 2.11 El marcado M_N,₀[₁] de T(U) generado por UNICYCLE-TO-TREE, suponiendo ƒ(_N,0)como el vértice origen, representa un conjunto 2-packing máximo y es igual al marcado_M_N,₀[₁] calculado en T(U) por el algoritmo de Mjelde (2004), considerando

ƒ(_N,0)como el origen.

Demostración._{Suponga, sin pérdida de generalidad, que} T+ ƒ(N,₀)=

ƒ(_N,0)_yƒ(_N,0)₆= ƒ(y). Bajo estas suposiciones, el árbol T(U) tiene dos ramas conectadas a ƒ(N,0). Sea T(U)←ƒ(y)

y T(U)←ƒ(z)

las ramas de T(U) _{que tienen a los vértices} ƒ(_y) _y ƒ(_z)_, respectivamente. Ahora, se demuestra que los marcados de cada rama generado por UNICYCLE-TO-TREEy por el algoritmo de Mjelde son iguales.

Caso 1_{. Rama}T(U)←ƒ(y)

. Puesto queƒ(y)es un vértice marcado enT(U), el vérti- ceƒ(_)_{no impone ninguna restricción en el marcado de}ƒ(_y)_{. Puesto que el subgrafo} inducido por los vértices deT(U)←ƒ(y)

también existe enU_{y M}_AXIMUM_-2-P_ACK_-U_NICYCLE es una implementación del algoritmo de Mjelde, ambos marcados paraT(U)←ƒ(y)

ge- nerados por ambos procedimientos son iguales.

Caso 2. RamaT(U)←ƒ(z)_{. Sea}_ƒ(_

N,m)un vértice arbitrario del bloqueBNen la rama T(U)←ƒ(z)

. Observe que cada subgrafo inducido por los vértices de T+

ƒ(N,m) en

T(U) también existen en U_{, excepto por} T+

ƒ₍z). Note que el marcado de estos subgrafos

en U _y T(U) _{son el mismo, y que éstos usan una implementación del algoritmo de} Mjelde. Por lo tanto, el marcado producido por UNICYCLE-TO-TREE y del algoritmo de

Mjelde para estros subgrafos es el mismo. Ahora, se demuestra que el marcado en el subgrafo inducido por los vértices de T+

ƒ₍z) es el mismo en ambos procedimientos.

Observe que todos los vértices_N,m _∈P₁ _en U_{, donde} _N,m₆=_y _y_N,m ₆=_z_{, no están} marcados enU_{ni en sus vértices correspondientes en} T(U)_.

Asimismo, note que cada uno de estos vértices se conecta a ƒ(p(_)) _en T(U)_{, el} cual no es un vértice marcado. Puesto que la distancia entre cada ƒ

a ƒ(p()) es al menos dos, entonces ningún vértice en T+

ƒ(N,m) impone una restricción en el

marcado de algún vértices deT_ƒ+

(z). Por lo tanto, el marcado para T(U)

←z

es el mismo para ambos procedimientos.

Cuando ƒ(N,0) =ƒ(y) existe sólo una rama conectada a ƒ(N,0), y el Caso 1 del Lema 2.11 es verdadero para dicha rama.

CuandoT_ƒ₍_

N,₀)6=ƒ(N,0)(es decir, existen otras ramas conectadas a ƒ(N,0)), note

que el subgrafo inducido por los vértices de dichas ramas existen enU_yT(U)_{. Asimis-} mo, observe que el marcado de aquellos vértices enU _{(el cual es el mismo en} T(U)₎

usó una variación del algoritmo de Mjelde. Por lo tanto, el marcado de dichas ramas es igual para ambos procedimientos.

Observe que puesto que ningún vértice cambia su marcado en T(U) _{en ambos} subárboles enraizados en ƒ(_N,₀)_{, entonces} ƒ(_N,₀) _{no puede cambiar su marcado en}

T(U)_.

El algoritmo UNICYCLE-TO-TREE corre en O(n) _{u.t.; no obstante, únicamente se em-} plea como componente para la demostración de que el algoritmo MAXIMUM-2-PACK-

CACTUSes correcto.

In document An empirical analysis of energy demand in Sub-Saharan Africa (Page 139-144)