Ebook · Hoofdstuk 7 van 10
Cloud Datawarehouses Vergeleken
Snowflake, BigQuery, Redshift en Microsoft Fabric / Synapse — vier platformen, vier architecturen, één keuze.
De cloud heeft het spel veranderd
Tien jaar geleden kostte een serieus datawarehouse miljoenen aan hardware en licenties, met inkoopcycli van zes maanden. Vandaag tekent een startup een Snowflake-account op een dinsdagmiddag en draait nog dezelfde week productieworkloads. De cloud heeft drie dingen veranderd: storage en compute zijn los gekoppeld, schaal is elastisch, en betalen gaat per gebruik.
De vier grote spelers
Vier platforms domineren de moderne markt:
- Snowflake — multi-cloud, marktleider qua mindshare. Scheidt storage en compute strikt.
- Google BigQuery — serverless, slot-based, sterk geïntegreerd in GCP.
- Amazon Redshift — oudgediende, RA3-instances en serverless varianten.
- Microsoft Fabric / Azure Synapse — Microsoft's antwoord, geïntegreerd met Power BI en het Microsoft-ecosysteem.
Snowflake
Snowflake's multi-cluster shared data architecture is fundamenteel anders dan klassieke MPP. Drie lagen:
- Storage layer — micro-partitions van 50-500MB op cloud object storage (S3, ADLS, GCS), columnar-formatted en gecomprimeerd.
- Compute layer — virtual warehouses (clusters van VM's) die je naar believen aan- en uitzet. Meerdere warehouses kunnen dezelfde data tegelijk lezen zonder elkaar te hinderen.
- Cloud services layer — metadata, query parsing, transactiebeheer, security.
Een typische Snowflake-warehouse opzet:
-- Klein warehouse voor BI dashboards
CREATE WAREHOUSE bi_wh
WAREHOUSE_SIZE = 'X-SMALL'
AUTO_SUSPEND = 60 -- pauzeer na 60 sec inactief
AUTO_RESUME = TRUE
MIN_CLUSTER_COUNT = 1
MAX_CLUSTER_COUNT = 4 -- multi-cluster bij concurrency-pieken
SCALING_POLICY = 'ECONOMY';
-- Groot warehouse voor zware ELT-jobs
CREATE WAREHOUSE etl_wh
WAREHOUSE_SIZE = 'LARGE'
AUTO_SUSPEND = 300
AUTO_RESUME = TRUE;
Sterk in: ergonomie, multi-cloud, secure data sharing, time travel (queries op data van X dagen geleden zonder backups). Minder in: kosten lopen op zonder discipline, ML-tooling minder native dan Databricks.
Google BigQuery
BigQuery is volledig serverless: geen warehouses te kiezen, geen clusters te managen. Je betaalt voor data scanned (on-demand) of voor capaciteit in slots (flat-rate / editions).
-- Partitioning op datum + clustering op customer_id
CREATE TABLE retail.fact_sales (
sales_id INT64,
date DATE,
customer_id STRING,
product_id STRING,
amount NUMERIC
)
PARTITION BY date
CLUSTER BY customer_id;
-- BigQuery rekent alleen de gescande kolommen + partitions
SELECT customer_id, SUM(amount) AS revenue
FROM retail.fact_sales
WHERE date BETWEEN '2026-01-01' AND '2026-03-31'
GROUP BY customer_id;
Het pricing model dwingt discipline af: een SELECT * zonder partition filter scant je hele tabel en rekent dat af. Je leert al snel om altijd partition filters mee te geven.
Sterk in: schaalbaarheid (PB-niveau), ML via BigQuery ML, native streaming via Pub/Sub, geo-spatial. Minder in: on-demand pricing kan onverwachts duur zijn, ecosystem buiten GCP minder ontwikkeld.
Amazon Redshift
Redshift is de oudste cloud-DWH (gelanceerd 2013). De moderne architectuur — RA3 nodes en Redshift Serverless — heeft de oude shared-nothing-MPP-architectuur grotendeels achter zich gelaten. Storage is nu losgekoppeld via Redshift Managed Storage (RMS).
-- Klassieke distribution + sort keys (relevant in provisioned mode)
CREATE TABLE fact_sales (
sales_id BIGINT,
date DATE,
customer_id INT,
product_id INT,
amount DECIMAL(12,2)
)
DISTKEY (customer_id) -- co-locatie van rijen per klant
SORTKEY (date); -- snelle range queries op datum
Sterk in: AWS-integratie, Spectrum (federated queries op S3), kostprijs in vol gebruik. Minder in: dist/sort keys vereisen meer werk dan andere platforms — al neutraliseert serverless dat grotendeels.
Microsoft Fabric en Azure Synapse
Microsoft heeft de afgelopen jaren stevig opnieuw gepositioneerd. Azure Synapse Analytics bestaat nog (dedicated SQL pools, serverless SQL pools), maar de strategische focus ligt op Microsoft Fabric — een SaaS-platform dat OneLake (Delta-formaat lakehouse), Data Factory, Synapse Engineering en Power BI bundelt onder één licentie.
-- Fabric Warehouse: T-SQL bovenop Delta in OneLake
CREATE TABLE fact_sales (
sales_id BIGINT,
date DATE,
customer_id INT,
product_id INT,
amount DECIMAL(12,2)
);
-- Synapse Serverless SQL Pool: query files in ADLS direct
SELECT TOP 100 *
FROM OPENROWSET(
BULK 'https://datalake.dfs.core.windows.net/raw/orders/*.parquet',
FORMAT = 'PARQUET'
) AS r;
Sterk in: Power BI integratie (DirectLake), één capacity-licentie, ideaal voor Microsoft-stack organisaties. Minder in: jonger product (Fabric), feature gaps, multi-cloud niet aanwezig.
Vergelijkingstabel
| Eigenschap | Snowflake | BigQuery | Redshift | Fabric / Synapse |
|---|---|---|---|---|
| Cloud | AWS / Azure / GCP | GCP only | AWS only | Azure only |
| Compute model | Virtual warehouses | Serverless slots | Provisioned + Serverless | Capacity units |
| Storage | Eigen object storage | Colossus | RMS (managed) | OneLake (Delta) |
| Pricing | Per seconde compute | Per TB scanned of slots | Per node-hour of RPU | Per CU-hour |
| Time travel | Tot 90 dagen | 7 dagen | Backups | Delta time travel |
| Data sharing | Native (Snowflake Marketplace) | Analytics Hub | Data Sharing | OneLake shortcuts |
| BI integratie | Universeel | Looker (best) | QuickSight (best) | Power BI (DirectLake) |
| ML-native | Snowpark ML | BigQuery ML | Redshift ML | Fabric Data Science |
Kosten in de praktijk
Cloud DWH kosten komen ruwweg in drie categorieën:
- Storage — typisch $20-25/TB/maand, vergelijkbaar over platforms.
- Compute — varieert sterk per platform en gebruiksmodel. Bij Snowflake X-Small ~$2/uur, BigQuery on-demand ~$5/TB scanned.
- Egress — data eruit halen kan een verrassing zijn. Houd hier rekening mee bij multi-cloud.
Pricing-modellen vergeleken
| Platform | Pricing-model | Voordeel | Risico |
|---|---|---|---|
| Snowflake | Per seconde compute (warehouse-uur) | Voorspelbaar bij gediscipllineerd auto-suspend | Idle warehouses verbranden geld; ad-hoc queries op grote warehouses |
| BigQuery on-demand | Per TB gescand | Betalen alleen voor wat je leest | Eén SELECT * zonder partition filter kan honderden euro's kosten |
| BigQuery editions | Slot-based (flat-rate) | Voorspelbaar bij stabiele workloads | Bij spikes kun je op slot-tekort lopen |
| Redshift RA3 | Per node-uur (provisioned) | Voorspelbaar bij 24/7 gebruik | Onderbenutting straft niet automatisch terug |
| Redshift Serverless | Per RPU-seconde | Geen idle-kosten | Cold start latency, monitoring lastiger |
| Fabric | Capacity Units (F-SKU) | Eén licentie voor heel het platform | Throttling bij overschrijding capacity |
Een rekenvoorbeeld voor een mid-size mkb
Stel: 5 TB analytische data, dagelijkse ELT van 4 uur, 50 Power BI-gebruikers met 2 uur dashboard-traffic per dag. Indicatieve kosten per maand:
- Snowflake — storage 100 dollar, ELT op M-warehouse (4×30×16 ≈ 2.000 dollar), BI op XS multi-cluster (~600 dollar) = circa 2.700 dollar.
- BigQuery edition Enterprise — storage 100 dollar, 100 slots autoscale ≈ 2.500 dollar = circa 2.600 dollar.
- Redshift Serverless — storage 100 dollar, ELT en queries op 32 base RPUs ≈ 2.200 dollar = circa 2.300 dollar.
- Microsoft Fabric F32 — alles inbegrepen onder één capacity ≈ 2.800 dollar (inclusief Power BI Pro-equivalent voor BI-gebruikers).
Disclaimer: dit zijn ruwe schattingen. Echte kosten hangen af van regio, kortingen, query-discipline en groei. Maar de orde van grootte ligt vrij dicht bij elkaar — de keuze maak je zelden op puur op prijs.
Reken altijd op je eigen data
Benchmarks van vendors zijn cherry-picked. Doe een eigen Proof-of-Concept met je echte queries op je echte data. De winnaar in een POC is bijna nooit de winnaar van de marketing-slide.
Hoe kies je?
Een pragmatische beslissingsboom:
- Microsoft-stack (Power BI, Azure)? → Fabric. Bijna altijd het juiste antwoord puur op TCO en ergonomie.
- Volledig in GCP? → BigQuery. Geen reden om buiten GCP te kijken.
- AWS-only en al Redshift in productie? → Redshift Serverless als upgrade-pad.
- Multi-cloud, vrijheid belangrijk, toekomstbestendig? → Snowflake.
- Veel ML naast BI, semi-structured data dominant? → Snowflake of Databricks (lakehouse).
Multi-cloud strategie
Multi-cloud klinkt strategisch maar is duur. Twee patronen die wel werken:
- Disaster recovery — Snowflake-account in tweede cloud, replicatie via Snowflake's eigen replication.
- Acquisition / merger — overgenomen bedrijf draait in andere cloud, integreer pragmatisch via federated queries of Iceberg / OneLake shortcuts.
Vermijd "multi-cloud voor de zekerheid" — dat verdubbelt je operationele complexiteit zonder meetbaar voordeel.
Data sharing zonder kopiëren
Een sterke trend: data delen met externe partijen zonder fysiek te kopiëren. Elk platform heeft daar inmiddels een antwoord op:
- Snowflake Secure Data Sharing — verleen leesrechten op een database aan een ander Snowflake-account. Geen kopie, geen ETL, real-time. Snowflake Marketplace voor publieke datasets.
- BigQuery Analytics Hub — vergelijkbaar concept binnen GCP, met linked datasets en publishing-controles voor data providers.
- Microsoft Fabric OneLake shortcuts — virtuele referenties naar data in andere workspaces of zelfs externe ADLS-accounts. Eén kopie, meerdere lezers.
- Databricks Delta Sharing — open protocol over Delta-tabellen, werkt cross-platform en niet alleen binnen Databricks.
Dit verandert hoe organisaties data uitwisselen met partners, leveranciers en klanten. Een leverancier die dagelijkse voorraad publiceert, een marketingbureau dat campagne-resultaten deelt, een bank die geanonimiseerde benchmark-data aanbiedt — allemaal zonder het ETL-circus dat dit tien jaar geleden zou hebben gevergd.
Security en compliance op cloud DWH
Vier security-bouwstenen die je op elk platform tegenkomt:
- Encryptie — at-rest en in-transit standaard aan; voor compliance-zwaardere trajecten gebruik je customer-managed keys (CMK) die je zelf beheert in een KMS / Key Vault.
- Network isolation — Private Link / VPC-endpoints zorgen dat verkeer naar je warehouse niet over het publieke internet gaat. Verplicht voor de meeste enterprise compliance frameworks.
- Row- en column-level security — Snowflake heeft row access policies, BigQuery row-level security via authorized views, Synapse/Fabric dynamic data masking. Cruciaal voor multi-tenant analytics en GDPR-toepassingen.
- Audit logging — elke query, elke schema-wijziging, elke role-grant moet herleidbaar zijn. Vraag bij elke vendor naar retention en exportmogelijkheden naar je SIEM.
Voor Nederlandse organisaties speelt data residency vaak een rol. Snowflake heeft regio's in West Europe en Amsterdam; BigQuery heeft europe-west4 (Eemshaven); Fabric draait op Azure Netherlands. Selecteer bewust en documenteer dit voor je DPIA.
De lakehouse-trend
De grenzen vervagen. Snowflake leest Iceberg / Delta direct, Fabric heeft OneLake, BigQuery heeft BigLake. De keuze "DWH of lakehouse" wordt minder relevant — je kunt steeds vaker Delta- of Iceberg-tabellen vanuit elke engine queryen. Voor data-engineers betekent dit: kies een open table format (Delta, Iceberg) en je opties blijven open.
Key takeaways
- De vier grote platforms zijn allemaal volwassen — er is geen "verkeerd" antwoord.
- Cloud-keuze (AWS / Azure / GCP) is meestal de eerste filter.
- Snowflake voor multi-cloud en ergonomie; Fabric voor Microsoft-shops; BigQuery voor GCP; Redshift bij bestaand AWS-investment.
- Doe POC's met eigen data — vendor benchmarks zijn niet representatief.
- Open table formats (Delta, Iceberg) verminderen vendor lock-in.
- Multi-cloud kost dubbel; gebruik het alleen met goede reden.
Veelgestelde vragen
Wat is het beste cloud datawarehouse in 2026?
Er is geen universeel 'beste' — de juiste keuze hangt af van je cloud-stack en use case. Microsoft-omgeving met Power BI: Fabric. GCP: BigQuery. AWS-only met bestaande investering: Redshift Serverless. Multi-cloud of strategische vrijheid: Snowflake. Doe altijd een POC met je eigen data.
Wat is het verschil tussen Snowflake en BigQuery?
Snowflake gebruikt virtual warehouses die je expliciet start, stopt en schaalt. BigQuery is volledig serverless met slot-based of on-demand pricing. Snowflake werkt op AWS, Azure én GCP; BigQuery alleen in GCP. Voor multi-cloud strategieën is Snowflake de logische keuze.
Wat is Microsoft Fabric en hoe verhoudt het zich tot Synapse?
Microsoft Fabric is het strategische SaaS-platform dat OneLake (Delta), Data Factory, Synapse Engineering en Power BI bundelt onder één capacity-licentie. Synapse bestaat nog, maar nieuwe investeringen gaan naar Fabric. Voor Microsoft-stack organisaties is Fabric meestal de juiste vervolgstap.
Wat kost een cloud datawarehouse?
Storage rond 20-25 dollar per TB per maand. Compute varieert sterk per gebruiksmodel. Een mid-size mkb met dagelijkse ELT en Power BI dashboards zit doorgaans op 1.500-5.000 euro per maand, ongeacht het gekozen platform.
Wat is het verschil tussen een datawarehouse en een lakehouse?
Een datawarehouse is geoptimaliseerd voor gestructureerde, analytische workloads met ACID-garanties. Een lakehouse combineert data lake-flexibiliteit (open formats als Delta of Iceberg, ML-tooling) met DWH-functionaliteit. De grenzen vervagen — Snowflake leest Iceberg, Fabric draait op Delta.
Moet ik kiezen tussen Snowflake en Databricks?
Snowflake is gestroomlijnder voor BI en analytische rapportages; Databricks is krachtiger voor ML, streaming en data engineering met Spark. Veel grote organisaties gebruiken beide — Databricks voor silver-engineering en ML, Snowflake voor de gold-laag en BI.