Geen onterechte vraag, want er bestaan veel verschillende beelden bij wat een data engineer is en doet. Het is erg vergelijkbaar met de eerdere opkomst van zijn ‘strijdmakker’: de data scientist. Vijf jaar geleden wist nog bijna niemand echt wat data science inhield maar wilde iedere organisatie ermee aan de slag, er ontstond een enorme hype. Inmiddels breidt het aantal instituten dat een opleiding heeft met ‘data science’ in de naam fors uit en stromen de eerste kant-en-klare junior data scientists de markt op, met alle fabrieksinstellingen van dien. Daarmee zijn we natuurlijk nog niet klaar: er is nog altijd een enorme behoefte aan senior data scientists om deze jonge enthousiastelingen te helpen groeien. Maar de roze wolk van toen heeft wel in rap tempo handen en voeten gekregen.
In zekere zin is de data engineer het vervolg op deze eerdere hype, want organisaties komen er langzamerhand achter dat je lang niet het maximale uit data science kan halen als je niet eerst je data goed op orde hebt. En dus moet er iemand naast komen te staan die deze orde gaat aanbrengen. De namen van de rollen geven het eigenlijk al weg: een data scientist is een wetenschapper, een onderzoeker, die zich het liefste bezighoudt met het ontdekken van patronen in data en hier waarde uit te halen in de context van de organisatie. Een data engineer is een ingenieur, iemand die problemen aanpakt door het ontwerpen, bouwen en onderhouden van technologische oplossingen. Individueel zijn ze sterk, maar samen kunnen ze vrijwel alle uitdagingen aan.
Het verschil tussen de data engineer en de data scientist zoals uitgelegd door DataCamp.
“Oké, maar structuur aanbrengen in data, daar hebben we toch al BI voor?” Zeker, het domein van Business Intelligence is niet nieuw, en een data scientist zal ook aanzienlijk sneller waarde leveren in een organisatie die zijn BI goed op orde heeft. Maar een BI’er is nog geen data engineer. In mijn optiek zijn twee dingen daarbij belangrijk. Ten eerste, waar de BI’er doorgaans veel met visuele tools werkt om data te structuren en daarover te rapporteren, verschuift de focus van de hedendaagse tooling in het datalandschap meer naar het programmeren. Kennis hebben van SQL is een goede start, maar voor de stap naar data engineer is het noodzakelijk om meer verstand te hebben van programmeren. En dat betekent niet alleen kennis van talen als Python en Scala, maar ook van methodieken om robuuste en onderhoudbare code te schrijven. Wat dat betreft is de data engineer een doorontwikkeling op de mix van een BI’er en een software engineer. Ten tweede ligt de focus van BI traditioneel op het verleden en het nu (denk bijvoorbeeld aan rapportages over de conditie van assets), waarbij data science juist op basis van patronen verwachtingen uitspreekt over de toekomst. Een goede data engineer begrijpt hoe deze voorspellende modellen tot stand komen, zodat hij of zij een dergelijk model kan omtoveren tot een productiewaardige service voor de gehele organisatie.
De rol van data engineer is breed, hij/zij heeft kennis van een heleboel onderwerpen. Denk bijvoorbeeld aan infrastructuur, software engineering, solution architectuur, privacy & security, data science en business context. Als data engineer combineer je de kennis van al deze onderwerpen om de meeste waarde uit data te halen. Omdat je ook veel moet afstemmen met specialisten van deze verschillende competenties, zijn goede communicatieve skills ook van groot belang. En net als voor alle banen in de moderne IT geldt dat de technologie in rap tempo evolueert, dus parate kennis van bestaande technieken is minder belangrijk dan het vermogen om snel te leren en je nieuwe omgevingen eigen te maken. Een schaap met geen vijf, maar zeventien poten dus!
Hopelijk heb ik met deze blog de data engineer verder ontrafeld, maar er valt natuurlijk nog veel meer te ontdekken. Wellicht wil je als organisatie graag weten hoe data engineering je kan helpen met de volgende stap in je data journey. Wellicht ben je bijna of net afgestudeerd en overweeg je om je carrière te starten als data engineer, of wil je vanuit bestaande expertise als bijvoorbeeld software engineer, BI-specialist of data scientist de overstap maken. In alle gevallen nodig ik je van harte uit om contact met mij op te nemen via een mailtje naar rklaassen@infiniot.nl. Hopelijk zitten we dan gauw (virtueel) bij elkaar aan tafel om samen de data engineer verder te ontdekken!