De Vier Belangrijkste Data Solution Trends In 2022

Organisaties beschikken over grote hoeveelheden data afkomstig uit meerdere bronnen, zoals apps, webapplicaties of machinesensoren. Als organisaties deze data maximaal benutten is dit de drijfveer voor elke digitale transformatie. Om de maximale waarde uit de data te halen beschrijft dit artikel de vier belangrijkste trends.

Dit artikel is geschreven voor IT-beslissers die werken in het data domein en verantwoordelijk zijn voor het realiseren van de datastrategie. De leestijd van dit artikel bedraagt gemiddeld zeven minuten.

Auteur:

Kouros Pechlivanidis

Jr. DS Engineer

<Introductie>

Het huidige IT-landschap in organisaties bestaat uit een groot aantal applicaties, die elk grote hoeveelheden data genereren. Bedrijven zien de potentie van deze data voor datagedreven besluitvorming. Data noemen we daarom ook wel het goud van de 21e eeuw.

Data platformen operationaliseren deze datagedreven besluiten. We onderkennen vier trends in het ontwikkelen van deze data platformen, zijnde:

  1. Migratie naar de cloud
  2. Continuous Integration en Continuous Delivery
  3. Event based real-time analytics
  4. Veranderende team rollen

 

Door succesvolle implementatie van deze trends zijn organisaties in staat om: (1) kosten te besparen, (2) kort-cyclische data-oplossingen te leveren en (3) de ware potentie uit de data te halen.

<1. Migratie naar de cloud>

Organisaties die geen gebruik maken van cloud-computing voeren de data verwerkingstaken uit op on-premise infrastructuur. Het grote nadeel hiervan is dat deze on-premise platformen de benodigde Data Processing Units (DPU’s) missen die cloud providers wel aanbieden. Voorbeelden van deze cloud providers zijn Google Cloud, Microsoft Azure of Amazon Web Services. Deze public cloud providers bieden:

  • Elasticiteit: Automatisch op- en afschalen van de benodigde computing resources, voorkomt veel handmatig werk en gebeurt geautomatiseerd veel sneller.
  • Schaalbaarheid: Nagenoeg oneindig schalende cloud infra, in tegenstelling tot on-premise infrastructuur die is beperkt tot de capaciteit van de servers.
  • Pay-as-you-go: De eigenaar van een computing resource betaalt alleen voor de workloads, in tegenstelling tot een on-premise infrastructuur waarin de eigenaar ook betaalt wanneer de resource niet actief is.

Cloud providers bieden een breed scala aan services die gebruikt kunnen worden voor het inrichten van een data analytics platform. In een eerder artikel wordt aan de hand van Amazon en Microsoft cloud services beschreven welke stappen je kan nemen naar een succesvol data analytics platform.

Een service die jij kan gebruiken om de cloud kosten van jouw organisatie te minimaliseren is de kostenbeheer en facturering service. Deze service, die iedere grote cloud provider aanbiedt, geeft inzicht over het gebruik van computing resources. Daarnaast kan je ook notificaties op deze service bouwen, waardoor je direct op de hoogte wordt gesteld van veranderingen in de kosten.

<2. Continuous Integration en Continuous Delivery>

Bij veel IT-managers leeft de vraag hoe je CI/CD toepast in het data analytics domein. Continuous Integration en Continuous Delivery (CI/CD) biedt drie belangrijke voordelen:

  1. Frequent releasen van kleine veranderingen vermindert het risico van fouten in de productieomgeving.
  2. Gebruik van geautomatiseerde pipelines zorgt ervoor dat ontwikkelaars minder tijd kwijt zijn aan code deployment.
  3. Gebruik van automatische tests om softwarefouten meteen te ontdekken, voordat dit negatieve impact heeft op gebruikers.

 

Data engineers zijn verantwoordelijk voor het ontwikkelen van machine learning algoritmen.  Machine learning operations (MLOps) engineers zijn verantwoordelijk voor het beheer van CI/CD en Machine Learning algoritmes in de productieomgeving. Ze borgen dat iedere stakeholder alleen toegang heeft tot geautoriseerde data. Door het integreren van geautomatiseerde tests in CI/CD pipelines borg je dat veranderingen in de code geen gevaar levert voor de kwaliteit en veiligheid van de data.

Om te beoordelen hoe volwassen jouw organisatie is op het gebied van Continuous Delivery, maak je gebruik van het door het NISI ontwikkelde Continuous Delivery 3.0 Maturity Model (CD3M). Na bepaling van het huidige maturity level weet je wat de volgende stap is om jouw organisatie naar een hoger maturity level te brengen.

<3. Event based real-time analytics>

In een competitieve markt met veel tijdsdruk streven organisaties naar wendbare besluitvorming. Real-time analytics maken het mogelijk voor organisaties om beslissingen te maken op basis van actuele data. Voor het aanbieden van actuele data maak je gebruik van twee processen:

  1. Extract Transform Load (ETL), waarbij data eerst getransformeerd wordt voordat deze naar een bronlocatie wordt weggeschreven. ETL wordt vaak gebruikt voor kleinere datasets waarop complexe transformaties plaatsvinden.
  2. Extract Load Transform (ELT), waarbij data eerst naar een bronlocatie wordt weggeschreven voordat er transformaties op de data plaatsvinden. ELT wordt vaak gebruikt voor grotere datasets die bestaan uit zowel gestructureerde als ongestructureerde data.

ETL of ELT maakt real-time analytics mogelijk. Dit houdt in dat het extractieproces direct begint zodra er nieuwe data binnenkomt op een bronlocatie. Hou rekening met de volgende uitdagingen om real-time analytics binnen jouw organisatie te implementeren:

  1. Het aanpassen van de data-architectuur: Gegenereerde data uit bedrijfsapplicaties lever je in batches aan. Elke batch bevat een grote hoeveelheid rijen met data. Voor real-time analytics lever je data frequenter en in kleine hoeveelheden aan, zodat het systeem deze direct verwerkt en dus actueler is.
  2. Het structureren van het real-time analytics project: Voordat je een begin maakt met de implementatie van de doelarchitectuur, is het essentieel om de requirements van alle stakeholders te verzamelen. In een eerder NISI artikel hebben we beschreven hoe je een data solutions project structureert aan de hand van een grondige methodologie.

<4. Veranderende teamrollen>

Om de maximale waarde uit een data analytics project te halen streven organisaties naar gebalanceerde en multifunctionele teams, met de eigenschappen:

  1. Hybride technische rollen
  2. Niet technische rollen in het team

Om afhankelijkheden tussen specialisten te minimaliseren, krijgen professionals een bredere skillset, inclusief technische vaardigheden. Bijvoorbeeld Data Engineers die ook Data Science taken op zich nemen. Het leidt tot meer wendbaarheid in een organisatie, doordat het mogelijk is om professionals voor meerdere use cases in te zetten.

Om een organisatie datagedreven te maken is het essentieel dat de cultuur van de organisatie zich mee ontwikkelt. Dit noemen we Data Literacy.

Data Literacy beschrijft de mate waarin een bedrijf data leest, begrijpt en communiceert als waardevolle informatie om business problemen op te lossen. Concreet betekent het dat we meer niet-technische rollen betrekken bij data analytics projecten, zoals:

  1. Analytics translators, verantwoordelijk voor het vertalen van business problemen naar data analytics use cases.
  2. Data Stewards, verantwoordelijk voor het data gebruik en veiligheid (Data Governance).

Het verbeteren van de Data Literacy zorgt voor succesvollere data analytics projecten en de mogelijkheid om te experimenteren met data om kansen te benutten.

Naast het betrekken van niet technische rollen bij data analytics projecten onderneem je de volgende drie acties om de data literacy binnen de organisatie te verbeteren:

  • Breng in kaart over welke databronnen je organisatie bezit en wie verantwoordelijk is voor de data. Het in kaart brengen van de beschikbare databronnen zorgt dat je de databronnen voor een nieuw data analytics project beter selecteert.
  • Breng managers en technische professionals samen in kennisdelingssessies om de data beter te begrijpen. Kennisdelingssessies met verschillende teams en functies zorgen ervoor dat alle professionals in de organisatie de data beter begrijpt.
  • Bevorder innovatie door professionals te laten experimenteren met nieuwe databronnen en tooling. Door te experimenteren met nieuwe databronnen en tooling haal je meer waarde uit niet optimaal benutte bronnen.

 

Dit artikel heeft vier trends beschreven die organisaties gebruiken om wendbare data oplossingen te realiseren. Met behulp van het artikel benut je je beschikbare data in 2022 optimaal.

Indien je meer wilt weten over de vier trends of andere gerelateerde onderwerpen neem je contact op met Wiconic, 030-268 53 98.