Introductie: Talend Data Catalog

Met het nieuwe release Fall ’18 heeft Talend een uitbreiding van de Talend Meta Data Manager gepubliceerd. In deze introductie willen we u meer informatie over deze nieuwe component en de mogelijkheden van Talend Data Catalog geven.

Wat is een data catalogus?

Kort gezegd is een data catalogus een centrale verzameling van informatie over datasets. Een data catalogus bestaat uit metadata, beschrijvingen en informatie over objectdefinities, zoals tabellen, synoniemen, views en indexen. Door deze informatie van data bronnen, transformaties en flows centraal te onderhouden zorgt de data catalog in het kader van data governance ervoor dat er een centrale inventaris van bedrijfsinformatie en -verwerking ontstaat. Deze kan door elke gebruiker, van analisten tot datawetenschappers en ontwikkelaars, gebruikt worden.

Talend Data Catalog

Talend Data Catalog (TDC) is onderdeel van de nieuwe release van Metadata Manager, welke wordt gebruikt voor Data Governance. TDC focust in het kader van informatie management op “minimaliseren van risico en maximaliseren van gegevensgebruik”.

TDC richt zich op het creëren en sturen van een centrale data catalog. Het geeft de gebruiker een veilige, single-point-of-control, waar kan worden samengewerkt om de toegankelijkheid, juistheid en relevantie van de data te verbeteren. Hiermee wordt het één bron van “betrouwbare data” voor de hele organisatie en ondersteunt o.a. de juiste werkwijze omtrent privacywetgeving.

Hoe kan TDC gebruikt worden?

  • Talend Data Catalog werkt als een spider/crawler en gebruikt machine learning (en smart semantics) om automatisch alle data in kaart te brengen
  • Indexeert data lakes, data warehouse, lokale apps, etc.
  • Verbetert juistheid, compatibiliteit, beveiliging en relevantie van data
  • Ondersteunt data privacy, naleving van wet- en regelgeving doortracking, versiebeheer en audit trails
  • Zorgt dat de eindgebruiker sneller toegang heeft tot betrouwbare data
  • Kan de data automatisch in kaart brengen.

Belangrijke TDC Features:

  • Data Catalog
    • Zoekfunctie met meerdere lagen, data sampling, semantische discovery, categoriseren en auto-profiling
    • Beheermogelijkheden met data tagging, toevoegen van opmerkingen, review, promotie, certificering
    • Data relationship discovery
    • Automatische detectie van data lake en andere databronnen
  • Crawlers en Connectors
    • Crawling en ophalen van gegevens uit elke ondersteunde databron (RDBMS, cloud, big data, NoSQL, bestanden)
    • Ophalen uit Talend Data Integration, Talend MDM, Talend Data Preparation
    • Ophalen van Salesforce.com en SAP
    • HiveQL Parsing
    • SQL Parsing
    • Ophalen van elke ondersteunde tool (data modeling, business intelligence, data integration)
  • Ontwerp- en Productiviteitstools
    • Metadata search en analyse
    • Business woordenlijst
    • Metadata documentatie en verrijking
    • Optioneel: data modellering en forward engineering
  • Management en Monitoring
    • Metadata documentatie en end-to-end data lineage
    • Impact-analyse en meldingen bij wijzigingen
    • Versiebeheer-systeem
    • Approval workflows for business glossary authoring
    • Aanpasbare gebruikersinterface en REST API

TDC Use Cases

TDC heeft verschillende mogelijkheden, zoals hierboven beschreven, maar er zijn drie aspecten om de tool beter te begrijpen, te weten: discover, curate, explore.

Scenario: Een retail use case met focus op privacygevoelige gegevens. De administrator moet er op toezien dat de persoonsgegevens van de klant gebruikt wordt in overeenstemming met de privacywetgeving.


Discover

  • Veronderstel dat een bedrijf drie soorten persoonsgegevens verwerkt, te weten voornaam, achternaam en e-mailadres.
  • Iemand in het team (datawetenschapper of ontwikkelaar) voegt een nieuw bestand toe aan de catalog zonder de andere teamleden hiervan op de hoogte te brengen.
  • De TDC stelt de administrator hier automatisch van op de hoogte.
  • De administrator kan het bestand automatisch vergelijken met de vorige versies van de catalog (op voorwaarde dat het bestand is aangepast). In dit geval is het bestand nieuw, dus de administrator kan de data bekijken.

Talend Data Catalog Discover

Curate

  • Tijdens het valideren van het bestand ziet de administrator dat het e-mailadres niet gemaskeerd is en gepubliceerd is zonder toestemming van de klant.
  • De administrator voegt een opmerking toe waarin staat dat het geen valide bestand is.
  • De administrator gebruikt een reeds beschikbare DI-job om het e-mailadres te maskeren.
  • De TDC ververst de catalog automatisch met de bijgewerkte data.

Explore

  • De administrator kan de lineage van de data (Impact & Lineage) tracken.

Traceability

  • De administrator kan ook een end-to-end semantische traceability (track & trace voor alle persoonsgegevens in de organisatie) uitvoeren

Meer informatie

Wenst u meer informatie over Talend Data Catalog of een hands-on demonstratie? Neemt u dan vrijblijvend contact met ons op. Wij geven u graag meer inzicht en voorbeelden over de mogelijkheden voor data governance, informatie management, documentatie en data lineage.