12.185 cursos gratis
8.723.930 alumnos
Facebook Twitter YouTube
Busca cursos gratis:

Capítulo 7:

 Un ejemplo de limpieza de datos

La limpieza de datos se puede dividir en 6 pasos:
1.        Separar en elementos
2.        Estandarizar
3.        Verificar
4.        Machear
5.        Agrupar
6.        Documentar

Para ilustrar estos 6 pasos, consideremos el siguiente ejemplo:

A través de una aplicación que maneja informaciones de clientes de una organización se introduce la siguiente dirección:

Sergio Pérez y Elena Ruiz Representantes de Gerencia de Comercio
Ave. Porvenir, e/ Calle 4ta y 5ta, #27
Reparto. Vigía,
Sta. Clara, V. C.,
50200

El primer paso en la limpieza de esta dirección es separarla en elementos:

Nombre (1): Sergio
Apellido (1): Pérez
Nombre (2): Elena
Apellido (2): Ruiz
Relación: Representantes de
Entidad: Gerencia de Comercio
Nombre de la Calle principal: Ave. Porvenir
Entre Calle 1: 4ta
Entre Calle 2: 5ta
Número de la Casa: #27
Reparto: Vigía
Ciudad: Sta. Clara
Provincia: V. C.
Código Postal: 50200

El segundo paso es estandarizar los elementos. Reconocemos que "Ave." es "Avenida". Sospechamos que el elemento "Sta. Clara" pudiera ser la ciudad de "Santa Clara", hacemos el cambio provisional y en el paso de verificación se revisará si existe una ciudad o municipio con este nombre. Haremos lo mismos con el elemento "V. C.", lo cambiaremos por "Villa Clara".

El tercer paso es verificar si los elementos estandarizados contienen errores en su contenido. Aquí se verificaría, en nuestro ejemplo, si el código postal 50200 pertenece a Santa Clara. Si, se tuviera otra dirección de "Sergio Pérez" o de "Elena Ruiz" y la que estamos analizando como ejemplo tuviera algún error, se pudieran comparar los códigos postales y sustituirlo por el correcto.

El macheo consiste en encontrar otros "Sergio Pérez" o "Elena Ruiz" en los registros de clientes existentes y nos aseguramos que todos sus elementos de la dirección son idénticos.

El agrupamiento consiste en reconocer que "Sergio" y "Elena" constituyen una agrupación porque ellos com parten la misma dirección. Además, se pudiera tener en otra fuente de datos (externa o interna) que indique que estas personas son hermanos o están casadas; motivo de más para que compartan la misma dirección.

El sexto paso consiste en documentar los resultados de los pasos anteriores en metadatos. Esto ayuda a que las siguientes limpiezas sean más capaces de reconocer direcciones y a  que los usuarios finales de las aplicaciones puedan llevar a cabo mejor las operaciones de un DW, así como para entender mejor la base de datos de los clientes.

Como se puede observar este proceso es bastante tedioso hacerlo manualmente y para hacerlo automatizado se necesita de aplicaciones sofisticadas que contengan algoritmos de análisis gramatical (parsing) de direcciones, algoritmos de macheo, e inmensas tablas con gran cantidad de entradas que provea sinónimos para las diferentes partes de las direcciones.

En algunos casos, es posible crear programas de limpieza efectivos. En el caso de bases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas comerciales, ya existentes, puede ser casi obligatorio.

Nuestras novedades en tu e-mail

Escribe tu e-mail:

Al presionar "Recibir" estás dándote de alta y aceptas las condiciones legales de mailxmail

Cursos similares a Almacenes de datos: importancia en el estandar


  • Vídeo
  • Alumnos
  • Valoración
  • Cursos
1. Estrategia empresarial. Concepto e importancia
La definición de una estrategia empresarial para una empresa ya sea grande o... [09/02/12]
11  
2. La importancia del derecho fiscal
Plantea de forma general algunos conceptos de esta àrea del derecho.Aprende y... [29/09/05]
3.985  
3. La importancia de la emisión de una factura
Una factura es un instrumento tributario de compra y venta que reconoce el convenio... [01/02/12]
18  

¿Qué es mailxmail.com?|ISSN: 1699-4914|Ayuda
Publicidad|Condiciones legales de mailxmail


Ponte al día de Organización empresarial con nuestros cursos gratis