IBM VEST Workshops
30 min
Última actualización 01/06/2023

103: Curar los datos

Ahora que tiene un glosario empresarial bien definido con un conjunto completo de artefactos de gobierno publicados, está preparado para iniciar el proceso de curación de datos. La curación de datos es el proceso de descubrir y añadir activos de datos a un proyecto o un catálogo, enriqueciéndolos asignando clasificaciones, clases de datos y términos empresariales, y analizando y mejorando la calidad de los datos.

La curacion puede ser un proceso muy intensivo de mano de obra y de consumo de tiempo, y para una gran cantidad de organizaciones, se hace en su mayoría manualmente donde los activos de datos son curados uno a la vez. Curation de datos avanzados, que se incluye con Catálogo de conocimientos de Watson, y lo que utilizará en este laboratorio, es principalmente un proceso automatizado en el que muchas de las tareas de curación se completan automáticamente para varios activos de datos simultáneamente.

En función de las tareas de curación que desee realizar, debe trabajar en los activos de datos de un proyecto, un catálogo o ambos antes de que los datos estén listos para ser utilizados por los consumidores de datos. En este laboratorio, utilizará ambos. La mayoría de las tareas de curación de datos se realizarán en un proyecto antes de publicarlas en un catálogo gobernado. Una vez que se publiquen en el catálogo, realizará algunas tareas de enriquecimiento adicionales en el catálogo, que no están disponibles en un proyecto. Para lograr esto, realizará los siguientes pasos de curación de datos.

1. Crear el proyecto

En esta sección, creará el proyecto que utilizará para crear y ejecutar el Importación de metadatos y Enriquecimiento procesos para descubrir, añadir y curar los activos de datos necesarios para el equipo del proyecto de análisis antes de que se publiquen en los gobernados Empresas catálogo.

  1. Seleccione la opción Navegación (las 4 líneas horizontales apiladas en la esquina superior izquierda).
  1. Seleccione la opción Proyectos > Ver todos los proyectos.

Nota: Usted Proyectos puede ser diferente de la pantalla de arriba. Es posible que ya tenga proyectos en su entorno. Este entorno no tiene ningún proyecto. Está utilizando un nuevo despliegue Watson Studio servicio.

  1. Haga clic en Nuevo proyecto +.
  1. Haga clic en Crear un proyecto vacío.
  1. Copie el texto siguiente y péguelo en el Nombre :
Enriquecimiento de catálogo empresarial
  1. Copie el texto siguiente y péguelo en el Descripción :
Este proyecto se utiliza para importar y enriquecer los metadatos de los activos de datos que se publicarán en el catálogo de Business que será accesible al equipo del proyecto de análisis para las tareas de análisis e IA.
  1. Seleccione el recuadro de selección Restringir quién puede ser colaborador (Debe seleccionarse de forma predeterminada).
  2. Seleccionar un objeto de nube Almacenamiento instancia si no se selecciona automáticamente una para usted.
  3. Haga clic en Crear.

Verá un cuadro de diálogo con el mensaje de que Se está creando el proyecto de enriquecimiento de catálogo de negocio ...

Cuando la creación del proyecto esté completa, usted será traído a la Visión general del nuevo proyecto.

2. Añadir las conexiones

El primer paso es añadir las conexiones al proyecto que utilizará Importación de metadatos. Estas son Conexiones de plataforma, así que asegúrese de haber creado todo el Conexiones de plataforma se le ha indicado que cree en el Laboratorio de tejido de datos Cómo empezar.

Añadir la conexión de almacenamiento de objetos


El Almacenamiento de objetos las conexiones de origen de datos contienen Depósito datos solicitados por el equipo del proyecto de análisis.

  1. Seleccione la opción Activos.
  2. Haga clic en Nuevo activo +.
  1. Seleccione la opción Conexión En la sección de herramientas de acceso a datos.
  1. Seleccione la opción De plataforma.
  2. Seleccione la opción Almacenamiento de objetos de nube conexión.
  3. Haga clic en Seleccione.
  1. Haga clic en Crear.

Añadir la conexión de depósito de datos


El Depósito de datos las conexiones de origen de datos contienen Empleado datos solicitados por el equipo del proyecto de análisis.

  1. Haga clic en Nuevo activo +.
  1. Seleccione la opción Conexión En la sección de herramientas de acceso a datos.
  1. Seleccione la opción De plataforma.
  2. Seleccione la opción Depósito de datos conexión.
  3. Haga clic en Seleccione.
  1. Haga clic en Crear.

Ahora debería ver las dos nuevas conexiones en el proyecto.

3. Importar los datos

Esta sección utiliza el método automatizado Importación de metadatos para conectarse de forma rápida y sencilla a las conexiones de origen de datos, descubrir y seleccionar los activos de datos en los que está interesado y añadirlos como activos de datos a un proyecto o catálogo. Importará los activos de datos en el proyecto que acaba de crear y, a continuación, los utilizará como entrada en el Enriquecimiento de metadatos proceso. Usted descubrirá e importará 4 activos de datos para cumplir los datos solicitados por el equipo del proyecto de análisis que reside en el 2 conexiones de origen de datos dispares que acaba de crear.

Importar los datos del depósito de datos


En este paso, creará la Importación de metadatos para importar el Empleado activo de datos desde el Depósito de datos conexión al proyecto.

  1. Haga clic en Nuevo activo +.
  1. Seleccione la opción Herramientas de acceso a datos del menú Herramientas de la izquierda.
  2. Seleccione la opción Importación de metadatos En la sección de herramientas de acceso a datos.
  1. Copie el texto siguiente y péguelo en el Nombre :
Importación de almacén de datos
  1. Copie el texto siguiente y péguelo en el Descripción :
Descubra e importe el activo de datos de empleado y los metadatos asociados que ha solicitado el equipo del proyecto de análisis que reside en el origen de datos del depósito de datos.

No se especifique cualquier código. Son códigos de importación de metadatos, no códigos de activos de datos. La importación añade automáticamente el esquema del activo de datos, o el nombre de la carpeta, como un código durante el proceso de importación.

  1. Haga clic en Siguiente.
  1. Seleccione Este proyecto (Enriquecimiento de catálogo de negocio) como destino (se debe seleccionar de forma predeterminada).
  2. Haga clic en Siguiente.
  1. Haga clic en Seleccionar conexión.
  1. Seleccione la opción Depósito de datos de la lista de conexiones de la izquierda.
  2. Seleccione la opción Flecha sobre la EMPLEADO esquema. No seleccione el recuadro de selección al lado de la EMPLEADO esquema. Al hacerlo, se seleccionarán todas las tablas del esquema.
  3. Seleccione la opción EMPLEADO de la lista.
  4. Haga clic en Seleccione.
  1. Haga clic en Siguiente.

Tomar el valor predeterminado Nombre del trabajo y dejar la planificación desactivada.

  1. Haga clic en Siguiente.

Tomar el valor predeterminado Opciones avanzadas que se han seleccionado para la actualización de las acciones de reimportación.

  1. Haga clic en Siguiente.

Tome un minuto para revisar la importación antes de crearla. Usted Ámbito Está importando 1 activos de datos del Depósito de datos conexión a la Enriquecimiento de catálogo empresarial proyecto como destino.

  1. Haga clic en Crear.

El proceso de importación debe ejecutarse rápidamente. En pocos segundos, debe empezar a ver el proceso de importación añadiendo los activos de datos que ha seleccionado en la lista de activos importados. Puede hacer clic en el Renovar en la parte superior de la página para actualizar los resultados.

Cuando se haya completado la importación, debe ver un mensaje en la parte superior de la página: Importación de metadatos completada. 1 activos se han importado correctamente. El activo de datos aparecerá en la lista de activos importados y ahora se añadirá al proyecto.

  1. Seleccione la opción Enriquecimiento de catálogo empresarial la indicación de ruta del proyecto en la parte superior de la página para volver a la página de inicio del proyecto.

Importar los datos de almacenamiento de objetos


En este paso, creará la Importación de metadatos para importar el Depósito activos de datos del Almacenamiento de objetos de nube conexión al proyecto.

  1. Haga clic en Nuevo activo +.
  1. Seleccione la opción Herramientas de acceso a datos del menú Herramientas de la izquierda.
  2. Seleccione la opción Importación de metadatos En la sección de herramientas de acceso a datos.
  1. Copie el texto siguiente y péguelo en el Nombre :
Importar Cloud Object Storage
  1. Copie el texto siguiente y péguelo en el Descripción :
Descubra e importe los activos de datos de almacén y los metadatos asociados que ha solicitado el equipo del proyecto de análisis que reside en el origen de datos de Cloud Object Storage.

No se especifique cualquier código. Son códigos de importación de metadatos, no códigos de activos de datos. La importación añade automáticamente el esquema del activo de datos, o el nombre de la carpeta, como un código durante el proceso de importación.

  1. Haga clic en Siguiente.
  1. Seleccione Este proyecto (Enriquecimiento de catálogo de negocio) como destino (debe seleccionarse de forma predeterminada).
  2. Haga clic en Siguiente.
  1. Haga clic en Seleccionar conexión.
  1. Seleccione la opción Almacenamiento de objetos de nube de la lista de conexiones de la izquierda.
  2. Seleccione la opción Flecha sobre la ALMACÉN. No seleccione el recuadro de selección al lado de la ALMACÉN. Al hacerlo, se seleccionarán todos los archivos de la carpeta. Este método le muestra qué archivos hay en la carpeta para que pueda ver exactamente qué se importará.
  3. Seleccione la opción alto nivel en la parte superior de la Depósito para importar los tres archivos de la carpeta.
  4. Haga clic en Seleccione.
  1. Haga clic en Siguiente.

Tomar el valor predeterminado Nombre del trabajo y dejar la planificación desactivada.

  1. Haga clic en Siguiente.

Tomar el valor predeterminado Opciones avanzadas que se han seleccionado para la actualización de las acciones de reimportación.

  1. Haga clic en Siguiente.

Tome un minuto para revisar la importación antes de crearla. Usted Ámbito Está importando 3 activos de datos del Almacenamiento de objetos de nube conexión a la Enriquecimiento de catálogo empresarial proyecto como destino.

  1. Haga clic en Crear.

El proceso de importación debe ejecutarse rápidamente. En pocos segundos, debe empezar a ver el proceso de importación añadiendo los activos de datos que ha seleccionado en la lista de activos importados. Puede hacer clic en el Renovar en la parte superior de la página para actualizar los resultados.

Cuando se haya completado la importación, debe ver un mensaje en la parte superior de la página: Importación de metadatos completada. 3 activos se han importado correctamente. Los activos de datos aparecerán en la lista de activos importados y ahora se añadirán al proyecto.

  1. Seleccione la opción Enriquecimiento de catálogo empresarial breadcrumb en la parte superior de la página para volver a la página de inicio del proyecto.

4. Enrich los datos

Esta sección utiliza el método automatizado Enriquecimiento de metadatos proceso de un proyecto, proporcionado por Catálogo de conocimientos de Watson, para enriquecer los activos de datos que se han descubierto e importado durante el Importación de metadatos procesos que acaba de completar. Las importaciones de metadatos se pueden utilizar como entrada en Enriquecimiento de metadatos Los procesos para perfilar automáticamente los datos, analizar y evaluar la calidad de los datos, y asignar clasificaciones de datos y términos empresariales aprovechando los artefactos de gobierno definidos en el glosario empresarial.

Aquí es donde todo el trabajo que se ha hecho frente a un glosario empresarial completo, significativo y cruzado, para establecer una base de análisis de negocio listo, paga dividendos. El enriquecimiento de metadatos ahora puede aprovechar las clases de datos y los términos empresariales y asignarlos automáticamente y hacer sugerencias durante el proceso de enriquecimiento de metadatos. Esto ahorra a las organizaciones una tremenda cantidad de tiempo y recursos, aliviando el esfuerzo manual que habría estado involucrado para lograr el mismo resultado.

  1. Haga clic en Nuevo activo +.
  1. Seleccione la opción Constructores automatizados del menú Herramientas de la izquierda.
  2. Seleccione la opción Enriquecimiento de metadatos En la sección de herramientas de constructores automatizados.
  1. Copie el texto siguiente y péguelo en el Nombre :
Enriquecimiento de catálogo empresarial
  1. Copie el texto siguiente y péguelo en el Descripción :
Enriquezca los metadatos de todos los activos de datos que se están publicando en el catálogo de Business para el equipo del proyecto de análisis.

No se especifique cualquier código. Se trata de etiquetas de enriquecimiento de metadatos, no de códigos de activos de datos.

  1. Haga clic en Siguiente.
  1. Haga clic en Seleccionar datos del proyecto.
  1. Seleccione la opción Importación de metadatos de la lista Tipos de activos de la izquierda.
  2. Seleccione la opción alto nivel del recuadro de selección Importaciones de metadatos para seleccionar todas las importaciones de metadatos que acaba de completar.
  3. Haga clic en Seleccione.
  1. Haga clic en Siguiente.
  1. Seleccione el recuadro de selección para el Datos de perfil Objetivo de enriquecimiento.
  2. Seleccione el recuadro de selección para el Analizar la calidad Objetivo de enriquecimiento.
  3. Seleccione el recuadro de selección para el Asignar términos Objetivo de enriquecimiento.
  4. Haga clic en Seleccionar categorías +.
  1. Seleccione la casilla de verificación junto a la [uncategorized] categoría.
  2. Seleccione la casilla de verificación junto a la Ubicaciones categoría.
  3. Seleccione la casilla de verificación junto a la Persona categoría.

Aviso: que 5 se han seleccionado categorías aunque sólo haya seleccionado 3. Este es el beneficio de usar subcategorías. El Persona se ha seleccionado la categoría padre y se ha incluido automáticamente Empleado y Privacidad subcategorías.

  1. Haga clic en Seleccione.
  1. Desplácese Abajo para ver el Muestreo opciones.

Puede elegir uno de los métodos de muestreo predefinidos o personalizarlo en función de los requisitos de la organización. Para este laboratorio, el Básica El método de muestreo será suficiente y se ejecutará rápidamente.

  1. Seleccione la opción Básica método de muestreo (debe seleccionarse de forma predeterminada).
  2. Haga clic en Siguiente.
  1. Seleccione Todos los activos de datos para el ámbito de datos de la opción de reejecuciones (debe seleccionarse de forma predeterminada).
  2. Haga clic en Siguiente.

Tome un minuto para revisar el enriquecimiento de metadatos antes de crearlo. El Ámbito de datos se analizará 2 activos de datos (son las 2 importaciones de metadatos que contienen los 4 activos de datos que acaba de crear) con un enriquecimiento Objetivo a Datos de perfil, Analizar la calidad y Asignar términos Cruzado 5 Categorías utilizando el Básica método de muestreo.

  1. Haga clic en Crear.

El proceso de enriquecimiento tardará aproximadamente 2 minutos en completarse. El estado cambiará de No analizado a En curso a Acabado.

  1. Seleccione la opción Renovar para actualizar el estado y supervisar el progreso.

Con el tiempo recibirá un mensaje notificándole que el Enriquecimiento de metadatos completado. Espere hasta el Estado de enriquecimiento para todos los activos de datos tienen un estado de Acabado.

5. Revisar los resultados del enriquecimiento

Ahora que el proceso de enriquecimiento está completo, puede revisar el Activo y Columna resultados. El Enriquecimiento de metadatos procesar automáticamente todos los activos de datos, analizar la calidad de los datos en el nivel de activo y columna de datos, asignar y sugerir términos de negocio para todos los activos y columnas de datos, y asignar clases de datos para todas las columnas de los activos de datos.

Revisar resultados de activos


  • Todos de los activos de datos tienen una puntuación de calidad de datos de 100%.
  • No se han asignado términos empresariales en el Activo nivel, pero el EMPLEADO Los activos de datos tienen una sugerencia.

Esto es un comportamiento esperado y no una preocupación a nivel de activos. Es más importante tener términos de negocio asignados a nivel de columna. Especialmente si se utilizan términos empresariales para desencadenar acciones de reglas de protección de datos. Los términos de negocio en el nivel de activo de datos son principalmente con fines informativos para notificar a los usuarios que los activos de datos pueden contener datos personales identificables o sensibles, y para proporcionar información adicional sobre el contenido de activos de datos sin que los usuarios tengan que ver los datos reales. Usted rectificará las sugerencias de términos de negocio en el siguiente Corregir resultados de activos paso a continuación.

Aviso que las clases de datos no se asignan en el Activo nivel.

Revisar resultados de columna


  1. Seleccione la opción Columnas.
  2. Haga clic en Calidad de datos cabecera de columna para ordenar las columnas en orden descendente (flecha hacia arriba) hasta la EXTENSIÓN está en la parte superior de la lista.
  • La calidad de los datos a nivel de columna es excelente. El EXTENSIÓN tiene la puntuación de calidad de datos más baja en 96%, y el CORREO tiene una puntuación de calidad de datos de 99%. Las 36 columnas restantes tienen una puntuación de calidad de datos de 100%. Usted sabe esto porque usted los clasificaba en orden descendente.
  1. Desplácese Abajo la lista de columnas para revisar la puntuación de calidad de datos para todas las demás columnas.
  1. Desplácese up a la primera columna en la parte superior de la lista de columnas.
  2. Haga clic en Columnas cabecera de columna para ordenar las columnas en orden ascendente (flechas apuntando hacia arriba) hasta BIRTH_DATE es la primera columna en la parte superior.
  1. Desplácese Abajo la lista de columnas para revisar los siguientes términos de negocio y observaciones de clase de datos:
  • 32 de las 38 columnas (84%) se han asignado el correcto término de negocio.
  • 4 columnas han sugerido asignaciones de términos empresariales, dejando sólo el FAX sin una asignación de término de negocio, y la DÍA asignado a un término de negocio incorrecto.
  • El 4 columnas que han sugerido que los términos de negocio son correcto, elevando la tasa de precisión a 95%, ¡que es sobresaliente!
  • Tras la revisión de las sugerencias de términos de negocio, el nivel de confianza de sugerencia es consistente o por encima de todo. 75%.
  • 33 de las 38 columnas se ha asignado una clase de datos, pero sólo 12 de esas columnas (31%) se han asignado el correcto clase de datos, lo cual es decepcionante.
  • El CORREO y SSN, que están protegidas por reglas de protección de datos, que se basan en la clase de datos, se les asignó la clase de datos correcta.
  • El FAX y WORK_PHONE columnas fueron no Se ha asignado una clase de datos, que rectificará, porque son números de teléfono que también están protegidos por una regla de protección de datos basada en su clase de datos.

Esta es información valiosa para el representante de datos porque valida la precisión y la integridad del glosario empresarial. Como se ha indicado anteriormente, cuanto más tiempo y esfuerzo se invertirán en la construcción de un glosario empresarial bien definido y preciso, mejor serán los resultados durante el proceso de curación de datos de enriquecimiento de metadatos. Pasar menos tiempo rectificando las asignaciones de metadatos incorrectas y faltantes, da como resultado una entrega más rápida de los datos a los que lo necesitan cuando lo necesitan.

Las definiciones de términos empresariales del glosario empresarial son precisas. Con algunas modificaciones, la tasa de precisión del proceso de asignación de término de negocio de enriquecimiento de metadatos podría mejorarse al 100%. La asignación de clase de datos podría mejorarse significativamente añadiendo términos empresariales relacionados a más clases de datos. Ha añadido algunas nuevas clases de datos, que tienen términos empresariales relacionados, pero la mayoría de las columnas dependían de las 165 clases de datos predefinidas suministradas por Watson Knowledge Catalog, que no tienen términos empresariales relacionados.

6. Rectificar Los Resultados De Los Activos

En este paso, usted rectificará a los desaparecidos Activo asignaciones de términos empresariales a nivel. El enriquecimiento de metadatos considera que faltan los términos empresariales sugeridos hasta que se haya aceptado uno de los términos empresariales sugeridos.

  1. Seleccione la opción Activos.
  2. Pase el ratón sobre el Términos de negocio columna de la EMPLEADO activo, haga clic en Ver más que aparece.
  3. Haga clic en + signo en el Términos empresariales Sección de la Gobernanza.

Nota: Selección de la Ver más el enlace abre automáticamente el Gobernanza del panel de información de la derecha. Esto sucederá cada vez que seleccione el enlace para un término de negocio o una clase de datos para cualquier columna.

  1. Utilización de la tipo de término empresarial desplegable, seleccione Todos los términos.
  2. Desplácese Abajo la lista hasta llegar a la Dirección electrónica término de negocio.
  3. Seleccione la casilla de verificación junto a la Dirección electrónica término de negocio. No se haga clic en Asignar hasta que se le indique.
  1. Desplácese Abajo la lista hasta llegar a la Número de teléfono término de negocio.
  2. Seleccione la casilla de verificación junto a la Número de teléfono término de negocio. No se haga clic en Asignar hasta que se le indique.
  1. Desplácese Abajo la lista hasta llegar a la Número de la Seguridad Social estadounidense término de negocio.
  2. Seleccione la casilla de verificación junto a la Número de la Seguridad Social estadounidense término de negocio.
  3. Haga clic en Asignar.

Aparecerán varios cuadros de diálogo notificándole que se han asignado los términos de negocio. Repita este proceso para la 5 los activos de datos restantes, sin capturas de pantalla, siguiendo las instrucciones detalladas para cada activo a continuación:

WAREHOUSE_SHIFTS.csv


  1. Pase el ratón sobre el Términos de negocio columna de la WAREHOUSE_SHIFTS.csv activo, haga clic en Ver más que aparece.
  2. Haga clic en + signo en el Términos empresariales Sección de la Gobernanza.
  3. Utilización de la tipo de término empresarial desplegable, seleccione Todos los términos.
  4. Utilización de la área de búsqueda, introduzca la palabra turno.
  5. Seleccione la casilla de verificación junto a la Día de turno término de negocio.
  6. Seleccione la casilla de verificación junto a la Duración del turno término de negocio.
  7. Seleccione la casilla de verificación junto a la Fecha de finalización del turno término de negocio.
  8. Seleccione la casilla de verificación junto a la Hora de finalización del turno término de negocio.
  9. Seleccione la casilla de verificación junto a la Hora máxima de turno término de negocio.
  10. Seleccione la casilla de verificación junto a la Hora mínima de turno término de negocio.
  11. Seleccione la casilla de verificación junto a la Fecha de inicio de turno término de negocio.
  12. Seleccione la casilla de verificación junto a la Hora de inicio de turno término de negocio.
  13. Haga clic en Asignar.

WAREHOUSE_STAFF.csv


  1. Pase el ratón sobre el Términos de negocio columna de la WAREHOUSE_STAFF.csv activo, haga clic en Ver más que aparece.
  2. Haga clic en + signo en el Términos empresariales Sección de la Gobernanza.
  3. Utilización de la tipo de término empresarial desplegable, seleccione Todos los términos.
  4. Utilización de la área de búsqueda, introduzca las palabras Habilidad.
  5. Seleccione la casilla de verificación junto a la Experiencia profesional término de negocio.
  6. Seleccione la casilla de verificación junto a la Calificación de cualificaciones término de negocio.
  7. Seleccione la casilla de verificación junto a la Conjunto de habilidades término de negocio.
  8. Haga clic en Asignar.

WAREHOUSE_STAFFING.csv


  1. Pase el ratón sobre el Términos de negocio columna de la WAREHOUSE_STAFFING.csv activo, haga clic en Ver más que aparece.
  2. Haga clic en + signo en el Términos empresariales Sección de la Gobernanza.
  3. Utilización de la tipo de término empresarial desplegable, seleccione Todos los términos.
  4. Desplácese Abajo la lista hasta llegar a la Código de día término de negocio.
  5. Seleccione la casilla de verificación junto a la Código de día término de negocio.
  6. Desplácese Abajo la lista hasta llegar a la Cambios máximos término de negocio.
  7. Seleccione la casilla de verificación junto a la Cambios máximos término de negocio.
  8. Haga clic en Asignar.

Esto completa las modificaciones que realizará en el Activo nivel. por lo que establecerá el estado de la Activos a Revisado. Ahora tiene un conjunto correcto, significativo y útil de términos empresariales asignados a todos los activos de datos que proporcionarán información adicional para ayudar a los usuarios finales a comprender su contenido.

  1. Seleccione la opción X en la esquina superior del panel de información para cerrarla y ganar más bienes raíces de pantalla.
  2. Seleccione la opción alto nivel para seleccionar todos 4 activos de la lista.
  1. Seleccione la opción Más en la barra de herramientas.
  2. Seleccione entonces Marca como revisada acción.
  1. Haga clic en Hecho.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.

Todas las Activos ahora tienen un marca de verificación junto a ellos en el Estado de revisión columna que indica que se han revisado.

7. Rectificar resultados de columna

En esta sección, rectificará las columnas que tienen asignaciones de clase de datos y término de negocio incorrectas y que faltan. La asignación de clase de datos de enriquecimiento de metadatos no era tan precisa como la asignación de términos empresariales, con 26 columnas que necesitan correcciones de clase de datos, en comparación con 6 columnas que necesitan correcciones de términos empresariales. Esto parece mucho trabajo, pero como usted experimentará en los siguientes pasos, el enriquecimiento de metadatos proporciona múltiples métodos para acelerar el proceso de corrección.

Rectificar asignaciones de términos empresariales de columna


En este paso, asignará términos empresariales a la 5 que faltan términos de negocio. A pesar de que algunas columnas han sugerido términos empresariales, Watson Knowledge Catalog considera que las asignaciones de términos empresariales sugieren asignaciones que faltan. También asignará el término de negocio correcto a la DÍA.

  1. Seleccione la opción Columnas.
  2. Haga clic en filtro en la esquina superior izquierda debajo de la Activos.
  3. Seleccione la opción Flecha a la derecha de la Término empresarial de filtro para abrirlo.
  4. Seleccione el recuadro de selección junto a Sin términos empresariales.
  5. Haga clic en Aplicar.
  1. Pase el ratón sobre el Términos empresariales columna de la FAX, haga clic en Ver más que aparece.
  2. Haga clic en + signo en el Términos empresariales Sección de la Gobernanza.
  1. Utilización de la tipo de término empresarial desplegable, seleccione Todos los términos.
  2. Utilización de la área de búsqueda, introduzca la palabra fax.
  3. Seleccione la casilla de verificación junto a la Número de fax término de negocio.
  4. Haga clic en Asignar.
  1. Haga clic en + signo más en el Clase de datos Sección de la Gobernanza.
  1. Utilización de la clases de datos desplegable, seleccione Todas las clases de datos.
  2. Utilización de la área de búsqueda, introduzca la palabra teléfono.
  3. Seleccione la casilla de verificación junto a la Número de teléfono clase de datos.
  4. Haga clic en Asignar.
  1. Pase el ratón sobre el Términos empresariales columna de la FIRST_NAME_MB, haga clic en Ver más que aparece.
  2. Haga clic en Asignar bajo el botón Nombre: término de negocio en el Gobernanza.
  1. Pase el ratón sobre el Términos empresariales columna de la GENDER_CODE, haga clic en Ver más que aparece.
  2. Haga clic en Asignar bajo el botón Sexo término de negocio en el Gobernanza.
  1. Pase el ratón sobre el Términos empresariales columna de la LAST_NAME_MB, haga clic en Ver más que aparece.
  2. Haga clic en Asignar bajo el botón Apellido término de negocio en el Gobernanza.
  1. Pase el ratón sobre el Términos empresariales columna de la SHIFT_MAX_HORS, haga clic en Ver más que aparece.
  2. Haga clic en Asignar bajo el botón Horas máximas de turno término de negocio en el Gobernanza.
  3. Haga clic en edit botón (parece un lápiz), en el Clase de datos Sección de la Gobernanza.
  1. Utilización de la clases de datos desplegable, seleccione Todas las clases de datos.
  2. Utilización de la área de búsqueda, introduzca la palabra cantidad.
  3. Seleccione la casilla de verificación junto a la Cantidad clase de datos.
  4. Haga clic en Asignar.
  1. Haga clic en Claro para borrar todos los filtros.

La lista de columnas aún debe ordenarse por Columnas en orden ascendente con BIRTH_DATE como la primera columna de la lista. Si no es así, haga clic en Columnas cabecera y clasificación Columnas en ascendente (Flecha hacia arriba) hasta BIRTH_DATE es la primera columna de la lista.

El DÍA la columna tiene 20 (+ 19) términos de negocio sugeridos que son todos incorrectos. El 20 Es necesario eliminar las sugerencias y asignar el término de negocio correcto. Será un proceso repetitivo para eliminarlos, porque hay no una función para eliminarlas todas, así que siga las instrucciones cuidadosamente para eliminarlas y asignarlas Día de turno término de negocio como el término de negocio correcto.

  1. Pase el ratón sobre el Términos empresariales columna de la DÍA, haga clic en + Ver 10 más que aparece.
  2. Pase el ratón sobre el Código de historial de empleado término de negocio, seleccione el - signo menos para eliminar el término de negocio.
  3. Pase el ratón sobre el Código de gestor término de negocio, seleccione el - signo menos para eliminar el término de negocio.
  4. Pase el ratón sobre el Código de terminación término de negocio, seleccione el - signo menos para eliminar el término de negocio.
  5. Desplácese Abajo la lista de términos de negocio, seleccione la - signo menos junto a cada uno de los restantes 16 los términos de negocio de la lista para eliminarlos.

Todos los términos de negocio deben eliminarse del DÍA y la columna Términos empresariales para la columna DÍA debe estar vacía con un -guión en él.

  1. Haga clic en + signo más en el Términos empresariales Sección de la Gobernanza para el separador DÍA.
  1. Utilización de la clases de datos desplegable, seleccione Todos los términos.
  2. Utilización de la área de búsqueda, introduzca las palabras día del turno.
  3. Seleccione la casilla de verificación junto a la Día de turno término de negocio.
  4. Haga clic en Asignar.

Ha completado correctamente la rectificación de los términos empresariales y ahora tiene asignaciones de términos empresariales precisas para todos 38 columnas.

Rectificar asignaciones de clase de datos de columna


Ahora corregirá las asignaciones de clase de datos. Hay: 12 columnas con asignaciones de clase de datos correctas, dejando 26 que necesitan atención. Para lograr esto rápidamente, usted utilizará el Búsqueda y filtro capacidades de enriquecimiento de metadatos. Tener asignaciones de clases de datos correctas es esencial para las columnas que contienen información confidencial, porque puede haber reglas de protección de datos que dependen de la asignación de clase de datos de una columna para enmascarar los datos. El CORREO y SSN columnas en el EMPLEADO activo de datos, que están protegidos por reglas de protección de datos, ya se les ha asignado la clase de datos correcta, pero la FAX y WORK_PHONE que contienen números de teléfono no, por lo que necesitan ser corregidos.

  1. Seleccione la opción X en la esquina superior derecha del panel de información para cerrarla.
  2. Seleccione la opción X en el Filtros para cerrarla.
  1. Copie el texto siguiente y péguelo en el área de búsqueda :
código_empleado
  1. Seleccione la opción alto nivel para seleccionar todas las columnas de la lista.
  2. Haga clic en Asignar clase de datos en la barra de herramientas.
  1. Utilización de la área de búsqueda, introduzca la palabra identificador.
  2. Seleccione la casilla de verificación junto a la Identificador clase de datos.
  3. Haga clic en Asignar.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.
  2. Seleccione la opción X en el área de búsqueda para despejarlo.
  1. Copie el texto siguiente y péguelo en el área de búsqueda :
_código
  1. Seleccione el recuadro de selección junto a DAY_CODE.
  2. Seleccione el recuadro de selección junto a GENDER_CODE.
  3. Seleccione el recuadro de selección junto a TERMINATION_CODE.
  4. Haga clic en Asignar clase de datos en la barra de herramientas.
  1. Utilización de la área de búsqueda, introduzca la palabra código.
  2. Seleccione la casilla de verificación junto a la Código clase de datos.
  3. Haga clic en Asignar.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.
  2. Seleccione la opción X en el área de búsqueda para despejarlo.
  1. Copie el texto siguiente y péguelo en el área de búsqueda :
_fecha
  1. Seleccione el recuadro de selección junto a SHIFT_END_DATE.
  2. Seleccione el recuadro de selección junto a SHIFT_START_DATE.
  3. Haga clic en Asignar clase de datos en la barra de herramientas.
  1. Utilización de la área de búsqueda, introduzca la palabra fecha.
  2. Seleccione la casilla de verificación junto a la Fecha clase de datos.
  3. Haga clic en Asignar.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.
  2. Seleccione la opción X en el área de búsqueda para despejarlo.
  1. Copie el texto siguiente y péguelo en el área de búsqueda :
_hora
  1. Seleccione el recuadro de selección junto a SHIFT_END_HOUR.
  2. Seleccione el recuadro de selección junto a SHIFT_START_HOUR.
  3. Haga clic en Asignar clase de datos en la barra de herramientas.
  1. Utilización de la área de búsqueda, introduzca la palabra hora.
  2. Seleccione la casilla de verificación junto a la Hora clase de datos.
  3. Haga clic en Asignar.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.
  2. Seleccione la opción X en el área de búsqueda para despejarlo.
  1. Copie el texto siguiente y péguelo en el área de búsqueda :
_teléfono
  1. Seleccione el recuadro de selección junto a WORK_PHONE.
  2. Haga clic en Asignar clase de datos en la barra de herramientas.
  1. Utilización de la área de búsqueda, introduzca la palabra teléfono.
  2. Seleccione la casilla de verificación junto a la Número de teléfono clase de datos.
  3. Haga clic en Asignar.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.
  2. Seleccione la opción X en el área de búsqueda para despejarlo.
  1. Copie el texto siguiente y péguelo en el área de búsqueda :
_id
  1. Seleccione el recuadro de selección junto a SHIFT_ID.
  2. Haga clic en Asignar clase de datos en la barra de herramientas.
  1. Utilización de la área de búsqueda, introduzca la palabra identificador.
  2. Seleccione la casilla de verificación junto a la Identificador clase de datos.
  3. Haga clic en Asignar.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.
  2. Seleccione la opción X en el área de búsqueda para despejarlo.
  1. Haga clic en filtro en la esquina superior izquierda debajo de la Activos.
  2. Seleccione la opción Flecha a la derecha de la Clase de datos de filtro para abrirlo.
  3. Copie el texto siguiente y péguelo en el área de búsqueda :
organización
  1. Seleccione la casilla de verificación junto a la Nombre de organización clase de datos que aparece.
  2. Haga clic en Aplicar.
  1. Seleccione el recuadro de selección junto a DEPARTAMENTO.
  2. Seleccione el recuadro de selección junto a SKILL_SET.
  3. Haga clic en Asignar clase de datos en la barra de herramientas.
  1. Utilización de la área de búsqueda, introduzca la palabra texto.
  2. Seleccione la casilla de verificación junto a la Texto clase de datos.
  3. Haga clic en Asignar.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.
  2. Seleccione la opción Claro para borrar los filtros.
  1. Seleccione la casilla de verificación junto a la Licencia de conducir del Estado de Delaware clase de datos.
  2. Haga clic en Aplicar.
  1. Seleccione el recuadro de selección junto a COMUTE_TIME.
  2. Seleccione el recuadro de selección junto a SHIFT_DURATION.
  3. Seleccione el recuadro de selección junto a SHIFT_MIN_HORS.
  4. Seleccione el recuadro de selección junto a SKILL_EXPERIENCE.
  5. Haga clic en Asignar clase de datos en la barra de herramientas.
  1. Utilización de la área de búsqueda, introduzca la palabra cantidad.
  2. Seleccione la casilla de verificación junto a la Cantidad clase de datos.
  3. Haga clic en Asignar.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.
  1. Seleccione el recuadro de selección junto a EXTENSIÓN.
  2. Seleccione el recuadro de selección junto a PAY_RATE.
  3. Seleccione el recuadro de selección junto a SKILL_RATING.
  4. Haga clic en Asignar clase de datos en la barra de herramientas.
  1. Utilización de la área de búsqueda, introduzca la palabra código.
  2. Seleccione la casilla de verificación junto a la Código clase de datos.
  3. Haga clic en Asignar.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.
  1. Haga clic en Claro para borrar todos los filtros.
  2. Seleccione la opción X en el Filtros para cerrarla.
  1. Seleccione el recuadro de selección junto a DAYS_OFF.
  2. Haga clic en Asignar clase de datos en la barra de herramientas.
  1. Utilización de la área de búsqueda, introduzca la palabra día.
  2. Seleccione la casilla de verificación junto a la Día clase de datos.
  3. Haga clic en Asignar.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.

Ha asignado correctamente las clases de datos correctas a todos 38 columnas. Esto completa todas las modificaciones que realizará en el Columna nivel. Ahora tiene un conjunto correcto, significativo y útil de términos empresariales y clases de datos asignados a todas las columnas. Esto proporcionará información adicional para ayudar a los usuarios finales a comprender su contenido, y garantizar que los datos confidenciales estén protegidos por las reglas de protección de datos que dependen de la asignación de clases de datos, por lo que puede establecer el estado de la Columnas a Revisado.

  1. Seleccione la opción alto nivel para seleccionar todas las columnas en la lista.
  2. Seleccione la opción Más en la barra de herramientas.
  3. Seleccione entonces Marca como revisada acción.
  1. Haga clic en Hecho.
  1. Haga clic en Renovar en la esquina superior derecha del mensaje visualizado.

El Estado de revisión columnas ahora tiene un marca de selección junto a todas las columnas.

  1. Desplácese Abajo la lista de columnas para revisar las asignaciones de términos empresariales y clases de datos y el estado de revisión de todas las columnas.
  2. Seleccione la opción Enriquecimiento de catálogo empresarial breadcrumb en la parte superior de la página para volver a la página de inicio del proyecto.

8. Añadir metadatos adicionales

Programas de utilidad de importación y enriquecimiento de metadatos no permitir que se añadan descripciones, o etiquetas adicionales, a los activos de datos, ya que se importan y se enriquecen. La importación añade automáticamente el nombre de esquema o carpeta del activo de datos como un código, pero añade la etiqueta en mayúsculas y las etiquetas son sensibles a las mayúsculas y minúsculas, sin ningún medio para la característica o un medio para cambiar el comportamiento. En esta sección usted añadirá descripciones a todos los activos de datos, eliminar sus códigos existentes y añadir nuevos etiquetas antes de publicarlos en el Empresas catálogo. Está eliminando las etiquetas existentes porque las importaciones de metadatos se han añadido en mayúsculas y las etiquetas que se han añadido a todos los artefactos de gobierno en el glosario empresarial se han añadido en mayúsculas y minúsculas mezcladas. Las etiquetas son sensibles a las mayúsculas y minúsculas y no desea etiquetas duplicadas e incoherentes. Por lo tanto, corregirá las etiquetas de activos de datos para que estén en mayúsculas y minúsculas antes de publicarlas.

  1. Seleccione la opción Activos.
  2. De la Datos sección, seleccione Activos de datos.
  3. Haga clic en Nombre cabecera de columna para ordenar las columnas en orden ascendente (flecha hacia arriba) hasta la EMPLEADO El activo de datos está en la parte superior de la lista.
  4. Haga clic en EMPLEADO activo de datos.
  1. Haga clic en Editar botón (parece un lápiz) para el Descripción.
  1. Copie el texto siguiente y péguelo en el Descripción :
Empleado oficial y actual de Empleado.
  1. Haga clic en Guardar.
  2. Seleccione la opción + signo más para añadir Etiquetas.
  1. Seleccione la opción X sobre la EMPLEADO para eliminarlo.
  1. Copie el texto siguiente y péguelo en el Etiqueta :
Empleado
  1. Haga clic en + signo más para añadir el código.
  1. Haga clic en Guardar.
  2. Seleccione la opción Enriquecimiento de catálogo empresarial breadcrumb en la parte superior de la página para volver a la página de inicio del proyecto.
  1. Haga clic en WAREHOUSE_SHIFTS.csv activo de datos.
  1. Haga clic en Editar botón (parece un lápiz) para el Nombre.
  2. Eliminar el .csv extensión de la Nombre.
  3. Haga clic en Guardar.
  4. Haga clic en Editar botón (parece un lápiz) para el Descripción.
  1. Copie el texto siguiente y péguelo en el Descripción :
Información de turno para todos los departamentos del almacén.
  1. Haga clic en Guardar.
  2. Seleccione la opción + signo más para añadir Etiquetas.
  1. Copie el texto siguiente y péguelo en el Etiqueta :
Empleado
  1. Haga clic en + signo más para añadir el código.
  1. Haga clic en Guardar.
  2. Seleccione la opción Enriquecimiento de catálogo empresarial breadcrumb en la parte superior de la página para volver a la página de inicio del proyecto.
  1. Haga clic en WAREHOUSE_STAFF.csv activo de datos.
  1. Haga clic en Editar botón (parece un lápiz) para el Nombre.
  2. Eliminar el .csv extensión de la Nombre.
  3. Haga clic en Guardar.
  4. Haga clic en Editar botón (parece un lápiz) para el Descripción.
  1. Copie el texto siguiente y péguelo en el Descripción :
Todos los empleados que trabajan como miembros del personal en las órdenes de proceso de almacén.
  1. Haga clic en Guardar.
  2. Seleccione la opción + signo más para añadir Etiquetas.
  1. Copie el texto siguiente y péguelo en el Etiqueta :
Empleado
  1. Haga clic en + signo más para añadir el código.
  1. Haga clic en Guardar.
  2. Seleccione la opción Enriquecimiento de catálogo empresarial breadcrumb en la parte superior de la página para volver a la página de inicio del proyecto.
  1. Haga clic en WAREHOUSE_STAFFING.csv activo de datos.
  1. Haga clic en Editar botón (parece un lápiz) para el Nombre.
  2. Eliminar el .csv extensión de la Nombre.
  3. Haga clic en Guardar.
  4. Haga clic en Editar botón (parece un lápiz) para el Descripción.
  1. Copie el texto siguiente y péguelo en el Descripción :
Los días de la semana y los turnos máximos que los miembros del personal están disponibles para trabajar en los turnos de almacén.
  1. Haga clic en Guardar.
  2. Seleccione la opción + signo más para añadir Etiquetas.
  1. Copie el texto siguiente y péguelo en el Etiqueta :
Empleado
  1. Haga clic en + signo más para añadir el código.
  1. Haga clic en Guardar.
  2. Seleccione la opción Enriquecimiento de catálogo empresarial breadcrumb en la parte superior de la página para volver a la página de inicio del proyecto.