Gedistribueerde GPU Inference met Symmetrische Verificatie

door Erik de Bruijn · 2026-01-29

Idee: “Mijn idle GPU hielp Bellingcat oorlogsmisdaden documenteren”

Samenvatting van het idee

Een peer-to-peer netwerk voor LLM inference waar:

Idle GPU’s worden ingezet voor token-generatie
Deterministische output wordt gebruikt voor verificatie (meerdere nodes genereren dezelfde tokens)
Trust-systeem gebaseerd op consensus (tampering = uitsluiting)
Privacy via PII-masking en onion routing
Micropayments of donaties voor compute (crypto of voor goede doelen gratis)

1. Evaluatie & Napkin Math

Is deterministische LLM inference haalbaar?

JA, maar met nuances:

Thinking Machines Lab heeft aangetoond dat non-determinisme komt van batch-invariance in GPU kernels, niet van random sampling
Met batch-invariant kernels (nu beschikbaar in SGLang) zijn 1000 completions 100% identiek
Performance penalty: ~5-15% overhead
Vereist: zelfde model weights, zelfde precision (fp16/bf16), batch-invariant kernels

Economische haalbaarheid

Consumer GPU earnings (2025):

Scenario	RTX 4090	Netto/maand
Conservatief (35% utilization, €2.5/hr)	€610
Optimistisch (50% utilization, €4/hr)	€1,412

Vergelijking met gecentraliseerde inference:

OpenAI GPT-4o: ~$2.50/1M output tokens
Local inference (4090): ~$0.15/1M tokens (alleen stroom)
Marge voor distributed netwerk: 10-15x goedkoper mogelijk

Redundantie-kosten voor verificatie:

2x redundant: 50% overhead → nog steeds 5-7x goedkoper
Steekproefsgewijs (10% verificatie): ~10% overhead → 9x goedkoper

Napkin math voor scale:

Stel: 10.000 deelnemers met RTX 4090
Gemiddeld 4 uur/dag idle = 40.000 GPU-uren/dag
≈ 1.6M GPU-uren/maand
≈ 50B tokens/maand generatie capaciteit (bij 30 tok/s)

Waarde bij $0.50/1M tokens = $25.000/maand totaal
Per deelnemer: $2.50/maand (als volunteer network)

Conclusie economics: Viable als volunteer network of met crypto incentives, maar niet competitief met datacenter-scale operations voor commerciële klanten.

2. Bestaande Projecten (State of the Art)

Directe concurrenten (gedistribueerde inference):

Project	Token	Focus	Verificatie	Status
io.net	$IO	GPU aggregatie	Reputation + staking	Live
Gensyn	$GENS	ML training	Proof-of-Compute	Testnet
Nosana	$NOS	AI inference (Solana)	Job verification	Live
Akash Network	$AKT	General compute	Container-based	Live, 428% YoY growth
Render Network	$RNDR	GPU rendering	Task completion	Live
SaladCloud	Fiat	Consumer GPUs	Centralized	Live, 60k+ GPUs
Cocoon (TON)	$TON	Confidential AI	TEE-based	Announced 2025
Prime Intellect	–	P2P inference	Pipeline parallel	Research

Verificatie-specifieke projecten:

Project	Aanpak
Inference Labs	ZK-proofs (Proof of Inference), $6.3M raised
zkVerify	Zero-knowledge proofs
EZKL	ZK-SNARKs voor ML

Volunteer computing (non-crypto):

BOINC – Credits, geen monetary value
Folding@home – Wetenschappelijk onderzoek

3. Jouw Differentiatie vs Bestaande Projecten

Wat is NIEUW aan jouw idee:

Aspect	Bestaande projecten	Jouw idee
Verificatie	ZK-proofs (duur, complex) of trust-based	Symmetrische verificatie via determinisme (simpeler, goedkoper)
Privacy	Meestal geen, of TEEs	PII-masking + onion routing
Doelgroep	Commercieel	Social good focus (Bellingcat, OSS)
Incentive	Altijd tokens	Optioneel gratis voor goede doelen

Unique Value Proposition:

Simpelere verificatie – geen ZK overhead, alleen deterministische vergelijking
Privacy-by-design – PII masking voorkomt data leakage
Social impact – specifiek voor underfunded organizations

Potentiële zwaktes:

Redundantie is waste – 2x compute voor 1x output (ZK is efficiënter op scale)
Model-gebonden – beide nodes moeten exact zelfde model+weights hebben
Latency – wachten op consensus van meerdere nodes
Geen training support – alleen inference (Gensyn doet training)

4. Technische Haalbaarheid

Wat werkt:

✅ Deterministische inference (SGLang, batch-invariant kernels)
✅ P2P netwerken (libp2p, IPFS-achtig)
✅ PII detection/masking (NER models, regex patterns)
✅ Onion routing (Tor-achtig)
✅ Token streaming (WebSockets, SSE)

Uitdagingen:

⚠️ Model distribution – 70B models zijn 140GB, moeilijk te syncen
⚠️ Precision matching – kleine numerieke verschillen kunnen cascaderen
⚠️ Latency – consumer internet vs datacenter
⚠️ Cold start – model laden kost 30-60 sec (dus preloaden en slim routeren)

Architectuur suggestie:

[User] → PII Masking → Onion Routing → [Node A + Node B]
                                              ↓
                                       Token comparison
                                              ↓
                                       Consensus → Output

5. Gekozen Richting: Hybrid Model met Generalized Reciprocity

Het “Give-First” Model

Een community-gedreven platform waar:

Social good als USP – primaire focus op underfunded orgs
Semi-commercieel – betalende klanten financieren de missie
Generalized reciprocity – contributors voelen nut, dragen graag bij
Profit → Impact – meer omzet = meer gratis compute voor goede doelen

Business Model: De GitHub-Analogie

Waarom GitHub’s model werkt:

Gratis voor open → Massive adoption, iedereen leert het
Betaald voor privé → Enterprises betalen voor privacy
Network effect → Developers kennen het van OSS, kiezen het voor werk
Cross-subsidie → Enterprise revenue financiert OSS infrastructure

Vertaald naar dit project:

┌─────────────────────────────────────────────────────────────┐
│                    PRICING MODEL                            │
├─────────────────────────────────────────────────────────────┤
│ PUBLIC INFERENCE    │ Gratis - prompts/outputs zijn        │
│ (like public repos) │ zichtbaar voor verificatie nodes     │
│                     │ Perfect voor: OSS, research, NGOs    │
├─────────────────────┼───────────────────────────────────────┤
│ PRIVATE INFERENCE   │ Betaald - volledige PII masking +    │
│ (like private repos)│ encrypted routing, geen data logging │
│                     │ Perfect voor: Enterprises, startups  │
└─────────────────────┴───────────────────────────────────────┘

Waarom dit werkt:

Developers experimenteren gratis met “public” inference
Bouwen apps, leren het platform
Wanneer ze naar productie gaan → betalen voor privacy
Net als GitHub: “I learned Git on public repos, now my company pays”

Revenue Flywheel

Gratis public tier → Developers leren platform →
Startup groeit → Heeft privacy nodig → Betaalt →
Revenue financiert meer gratis compute → Meer developers → ...

Waarom dit werkt (Generalized Reciprocity)

Voor GPU contributors:

“Mijn idle GPU hielp Bellingcat oorlogsmisdaden documenteren”
Zichtbare impact dashboards
Community recognition (niet alleen tokens)
Optionele earnings voor wie dat wil

Voor gebruikers:

Goedkoper dan centralized (5-10x)
Privacy-first (PII masking)
Ethisch verantwoord compute

Network effect:

Meer impact zichtbaar → Meer contributors → Meer capaciteit
      ↑                                           ↓
      └──── Meer goede doelen kunnen meedoen ←────┘

Differentiatie vs io.net/Akash

Aspect	io.net/Akash	Dit project
Motivatie	Financieel	Impact + optioneel financieel
Branding	“Goedkoper dan AWS”	“AI voor het goede doel”
Community	Token holders	Mission-driven contributors
Verificatie	Trust/staking	Deterministische consensus
Data value	Alleen compute	Compute + feedback + adapters

5b. Tweede USP: Data Contribution als Waarde

Niet alleen compute, ook data

Bestaande netwerken (io.net, Akash) leveren alleen compute. Dit project kan ook waardevolle data genereren:

┌─────────────────────────────────────────────────────────────┐
│              DUAL CONTRIBUTION MODEL                        │
├─────────────────────────────────────────────────────────────┤
│ COMPUTE             │ GPU cycles voor inference            │
│ (traditioneel)      │                                       │
├─────────────────────┼───────────────────────────────────────┤
│ DATA                │ Human feedback, preferences,         │
│ (nieuw!)            │ corrections, domain expertise        │
└─────────────────────┴───────────────────────────────────────┘

Wat kan gecollect worden (opt-in):

RLHF Data
- Gebruikers geven thumbs up/down op outputs
- Preference pairs: “Output A is beter dan B”
- Dit is EXTREEM waardevol – OpenAI betaalt miljoenen voor dit soort data
Domain-Specific Adapters
- Community traint LoRA adapters voor specifieke domeinen
- Legal, medical, journalism, coding, etc.
- Adapters worden gedeeld als “open weights”
Correction Data
- Gebruikers corrigeren fouten in outputs
- Bouwt dataset voor fine-tuning
Synthetic Training Data
- Goede outputs + human validation
- Kan gebruikt worden om kleinere/snellere modellen te trainen

Data Flywheel

Gebruikers geven feedback → Data verbetert model/adapter →
Betere outputs → Meer gebruikers → Meer feedback → ...

Waarom dit uniek is

Platform	Compute	Data	Model verbetering
OpenAI	❌	✅ (closed)	Alleen voor OpenAI
io.net	✅	❌	Nee
Hugging Face	❌	✅ (open)	Community models
Dit project	✅	✅ (open)	Terug naar community

Incentive voor data contribution

Gratis compute credits voor feedback
Recognition als data contributor
Early access tot verbeterde modellen
Co-authorship op open adapters

Privacy considerations

Alle feedback is opt-in
PII wordt gestript vóór opslag
Data is anoniem en geaggregeerd
Gebruikers kunnen kiezen: “help verbeter het model” vs “volledig privé”

6. Risico’s en Mitigatie

Risico	Mitigatie
Niet genoeg contributors	Start met social proof (Bellingcat case study)
Commercieel kannibaliseerd impact	Harde ratio: min. 30% compute naar Tier 1
Tech te complex	Begin met 1 model (Llama 3.1 70B), itereer
Privacy leaks	PII masking + onion routing + audits
Latency te hoog	Regional clustering, model pre-loading

7. Taglines (10 opties voor een pitch)

“Your idle GPU can change the world”
“Democratizing AI for those who need it most”
“BOINC for the AI age”
“Turn wasted compute into global impact”
“Trustless inference through deterministic consensus”
“The volunteer network powering humanitarian AI”
“Because Bellingcat shouldn’t have to outbid Google”
“Open source compute for open source causes”
“Privacy-first distributed inference”
“Idle GPUs, unlimited potential”

Generalized reciprocity focus: 11. “Give compute, get impact” 12. “The more we share, the more we can” 13. “Your GPU’s downtime is someone’s breakthrough” 14. “AI abundance through collective action” 15. “Compute as a commons”

Nederlands:

“Jouw videokaart, hun doorbraak”
“Gedistribueerde AI voor het goede doel”
“Geef rekenkracht, krijg impact”
“Samen sterker dan de cloud”

8. Concrete Volgende Stappen

Fase 1: Validatie (2-4 weken)

Demand interviews
- Contact Bellingcat (tech team)
- Contact Mozilla Foundation / Common Voice team
- Contact academic AI researchers (TU Delft, UvA)
- Post op Hacker News / Reddit r/LocalLLaMA voor feedback
Technical feasibility check
- Test SGLang deterministic mode op 2 identieke GPU setups
- Meet latency overhead van consensus mechanism
- Test PII masking met Presidio of vergelijkbaar

Fase 2: Minimal Viable Product (2-3 maanden)

Core infrastructure
- Fork SGLang met deterministic verification layer
- Simple P2P discovery (libp2p)
- Basic PII masking pipeline
- Web dashboard voor contributors
Pilot users
- 10-20 GPU contributors (gaming community, crypto miners)
- 2-3 pilot “goede doel” organisaties

Fase 3: Community & Scale (6-12 maanden)

Impact visibility
- Public dashboard: “X tokens generated for Y cause”
- Contributor profiles met impact stats
- Case studies en success stories
Funding
- NLnet Open Call
- NGI Zero
- EU Horizon Europe
- Mozilla Technology Fund

Fase 4: Sustainability

Commercial tier voor enterprises
Foundation structure (stichting)
Governance door community

9. Mogelijke Namen

Naam	Rationale
Lumina	“Bringing light” – AI for good
Mesh.AI	P2P / distributed network
GiveCompute	Direct, actiegericht
IdleGood	Idle GPUs + doing good
Verified.AI	Focus op trustless verificatie
Commons.ai	Gedeelde resource, commons
Altru	Altruism + compute
Reciprocal	Generalized reciprocity concept