Gedistribueerde GPU Inference met Symmetrische Verificatie
Idee: “Mijn idle GPU hielp Bellingcat oorlogsmisdaden documenteren”
Samenvatting van het idee
Een peer-to-peer netwerk voor LLM inference waar:
- Idle GPU’s worden ingezet voor token-generatie
- Deterministische output wordt gebruikt voor verificatie (meerdere nodes genereren dezelfde tokens)
- Trust-systeem gebaseerd op consensus (tampering = uitsluiting)
- Privacy via PII-masking en onion routing
- Micropayments of donaties voor compute (crypto of voor goede doelen gratis)
1. Evaluatie & Napkin Math
Is deterministische LLM inference haalbaar?
JA, maar met nuances:
- Thinking Machines Lab heeft aangetoond dat non-determinisme komt van batch-invariance in GPU kernels, niet van random sampling
- Met batch-invariant kernels (nu beschikbaar in SGLang) zijn 1000 completions 100% identiek
- Performance penalty: ~5-15% overhead
- Vereist: zelfde model weights, zelfde precision (fp16/bf16), batch-invariant kernels
Economische haalbaarheid
Consumer GPU earnings (2025):
| Scenario | RTX 4090 | Netto/maand |
|---|---|---|
| Conservatief (35% utilization, €2.5/hr) | €610 | |
| Optimistisch (50% utilization, €4/hr) | €1,412 |
Vergelijking met gecentraliseerde inference:
- OpenAI GPT-4o: ~$2.50/1M output tokens
- Local inference (4090): ~$0.15/1M tokens (alleen stroom)
- Marge voor distributed netwerk: 10-15x goedkoper mogelijk
Redundantie-kosten voor verificatie:
- 2x redundant: 50% overhead → nog steeds 5-7x goedkoper
- Steekproefsgewijs (10% verificatie): ~10% overhead → 9x goedkoper
Napkin math voor scale:
Stel: 10.000 deelnemers met RTX 4090
Gemiddeld 4 uur/dag idle = 40.000 GPU-uren/dag
≈ 1.6M GPU-uren/maand
≈ 50B tokens/maand generatie capaciteit (bij 30 tok/s)
Waarde bij $0.50/1M tokens = $25.000/maand totaal
Per deelnemer: $2.50/maand (als volunteer network)
Conclusie economics: Viable als volunteer network of met crypto incentives, maar niet competitief met datacenter-scale operations voor commerciële klanten.
2. Bestaande Projecten (State of the Art)
Directe concurrenten (gedistribueerde inference):
| Project | Token | Focus | Verificatie | Status |
|---|---|---|---|---|
| io.net | $IO | GPU aggregatie | Reputation + staking | Live |
| Gensyn | $GENS | ML training | Proof-of-Compute | Testnet |
| Nosana | $NOS | AI inference (Solana) | Job verification | Live |
| Akash Network | $AKT | General compute | Container-based | Live, 428% YoY growth |
| Render Network | $RNDR | GPU rendering | Task completion | Live |
| SaladCloud | Fiat | Consumer GPUs | Centralized | Live, 60k+ GPUs |
| Cocoon (TON) | $TON | Confidential AI | TEE-based | Announced 2025 |
| Prime Intellect | – | P2P inference | Pipeline parallel | Research |
Verificatie-specifieke projecten:
| Project | Aanpak |
|---|---|
| Inference Labs | ZK-proofs (Proof of Inference), $6.3M raised |
| zkVerify | Zero-knowledge proofs |
| EZKL | ZK-SNARKs voor ML |
Volunteer computing (non-crypto):
- BOINC – Credits, geen monetary value
- Folding@home – Wetenschappelijk onderzoek
3. Jouw Differentiatie vs Bestaande Projecten
Wat is NIEUW aan jouw idee:
| Aspect | Bestaande projecten | Jouw idee |
|---|---|---|
| Verificatie | ZK-proofs (duur, complex) of trust-based | Symmetrische verificatie via determinisme (simpeler, goedkoper) |
| Privacy | Meestal geen, of TEEs | PII-masking + onion routing |
| Doelgroep | Commercieel | Social good focus (Bellingcat, OSS) |
| Incentive | Altijd tokens | Optioneel gratis voor goede doelen |
Unique Value Proposition:
- Simpelere verificatie – geen ZK overhead, alleen deterministische vergelijking
- Privacy-by-design – PII masking voorkomt data leakage
- Social impact – specifiek voor underfunded organizations
Potentiële zwaktes:
- Redundantie is waste – 2x compute voor 1x output (ZK is efficiënter op scale)
- Model-gebonden – beide nodes moeten exact zelfde model+weights hebben
- Latency – wachten op consensus van meerdere nodes
- Geen training support – alleen inference (Gensyn doet training)
4. Technische Haalbaarheid
Wat werkt:
- ✅ Deterministische inference (SGLang, batch-invariant kernels)
- ✅ P2P netwerken (libp2p, IPFS-achtig)
- ✅ PII detection/masking (NER models, regex patterns)
- ✅ Onion routing (Tor-achtig)
- ✅ Token streaming (WebSockets, SSE)
Uitdagingen:
- ⚠️ Model distribution – 70B models zijn 140GB, moeilijk te syncen
- ⚠️ Precision matching – kleine numerieke verschillen kunnen cascaderen
- ⚠️ Latency – consumer internet vs datacenter
- ⚠️ Cold start – model laden kost 30-60 sec (dus preloaden en slim routeren)
Architectuur suggestie:
[User] → PII Masking → Onion Routing → [Node A + Node B]
↓
Token comparison
↓
Consensus → Output
5. Gekozen Richting: Hybrid Model met Generalized Reciprocity
Het “Give-First” Model
Een community-gedreven platform waar:
- Social good als USP – primaire focus op underfunded orgs
- Semi-commercieel – betalende klanten financieren de missie
- Generalized reciprocity – contributors voelen nut, dragen graag bij
- Profit → Impact – meer omzet = meer gratis compute voor goede doelen
Business Model: De GitHub-Analogie
Waarom GitHub’s model werkt:
- Gratis voor open → Massive adoption, iedereen leert het
- Betaald voor privé → Enterprises betalen voor privacy
- Network effect → Developers kennen het van OSS, kiezen het voor werk
- Cross-subsidie → Enterprise revenue financiert OSS infrastructure
Vertaald naar dit project:
┌─────────────────────────────────────────────────────────────┐
│ PRICING MODEL │
├─────────────────────────────────────────────────────────────┤
│ PUBLIC INFERENCE │ Gratis - prompts/outputs zijn │
│ (like public repos) │ zichtbaar voor verificatie nodes │
│ │ Perfect voor: OSS, research, NGOs │
├─────────────────────┼───────────────────────────────────────┤
│ PRIVATE INFERENCE │ Betaald - volledige PII masking + │
│ (like private repos)│ encrypted routing, geen data logging │
│ │ Perfect voor: Enterprises, startups │
└─────────────────────┴───────────────────────────────────────┘
Waarom dit werkt:
- Developers experimenteren gratis met “public” inference
- Bouwen apps, leren het platform
- Wanneer ze naar productie gaan → betalen voor privacy
- Net als GitHub: “I learned Git on public repos, now my company pays”
Revenue Flywheel
Gratis public tier → Developers leren platform →
Startup groeit → Heeft privacy nodig → Betaalt →
Revenue financiert meer gratis compute → Meer developers → ...
Waarom dit werkt (Generalized Reciprocity)
Voor GPU contributors:
- “Mijn idle GPU hielp Bellingcat oorlogsmisdaden documenteren”
- Zichtbare impact dashboards
- Community recognition (niet alleen tokens)
- Optionele earnings voor wie dat wil
Voor gebruikers:
- Goedkoper dan centralized (5-10x)
- Privacy-first (PII masking)
- Ethisch verantwoord compute
Network effect:
Meer impact zichtbaar → Meer contributors → Meer capaciteit
↑ ↓
└──── Meer goede doelen kunnen meedoen ←────┘
Differentiatie vs io.net/Akash
| Aspect | io.net/Akash | Dit project |
|---|---|---|
| Motivatie | Financieel | Impact + optioneel financieel |
| Branding | “Goedkoper dan AWS” | “AI voor het goede doel” |
| Community | Token holders | Mission-driven contributors |
| Verificatie | Trust/staking | Deterministische consensus |
| Data value | Alleen compute | Compute + feedback + adapters |
5b. Tweede USP: Data Contribution als Waarde
Niet alleen compute, ook data
Bestaande netwerken (io.net, Akash) leveren alleen compute. Dit project kan ook waardevolle data genereren:
┌─────────────────────────────────────────────────────────────┐
│ DUAL CONTRIBUTION MODEL │
├─────────────────────────────────────────────────────────────┤
│ COMPUTE │ GPU cycles voor inference │
│ (traditioneel) │ │
├─────────────────────┼───────────────────────────────────────┤
│ DATA │ Human feedback, preferences, │
│ (nieuw!) │ corrections, domain expertise │
└─────────────────────┴───────────────────────────────────────┘
Wat kan gecollect worden (opt-in):
- RLHF Data
- Gebruikers geven thumbs up/down op outputs
- Preference pairs: “Output A is beter dan B”
- Dit is EXTREEM waardevol – OpenAI betaalt miljoenen voor dit soort data
- Domain-Specific Adapters
- Community traint LoRA adapters voor specifieke domeinen
- Legal, medical, journalism, coding, etc.
- Adapters worden gedeeld als “open weights”
- Correction Data
- Gebruikers corrigeren fouten in outputs
- Bouwt dataset voor fine-tuning
- Synthetic Training Data
- Goede outputs + human validation
- Kan gebruikt worden om kleinere/snellere modellen te trainen
Data Flywheel
Gebruikers geven feedback → Data verbetert model/adapter →
Betere outputs → Meer gebruikers → Meer feedback → ...
Waarom dit uniek is
| Platform | Compute | Data | Model verbetering |
|---|---|---|---|
| OpenAI | ❌ | ✅ (closed) | Alleen voor OpenAI |
| io.net | ✅ | ❌ | Nee |
| Hugging Face | ❌ | ✅ (open) | Community models |
| Dit project | ✅ | ✅ (open) | Terug naar community |
Incentive voor data contribution
- Gratis compute credits voor feedback
- Recognition als data contributor
- Early access tot verbeterde modellen
- Co-authorship op open adapters
Privacy considerations
- Alle feedback is opt-in
- PII wordt gestript vóór opslag
- Data is anoniem en geaggregeerd
- Gebruikers kunnen kiezen: “help verbeter het model” vs “volledig privé”
6. Risico’s en Mitigatie
| Risico | Mitigatie |
|---|---|
| Niet genoeg contributors | Start met social proof (Bellingcat case study) |
| Commercieel kannibaliseerd impact | Harde ratio: min. 30% compute naar Tier 1 |
| Tech te complex | Begin met 1 model (Llama 3.1 70B), itereer |
| Privacy leaks | PII masking + onion routing + audits |
| Latency te hoog | Regional clustering, model pre-loading |
7. Taglines (10 opties voor een pitch)
- “Your idle GPU can change the world”
- “Democratizing AI for those who need it most”
- “BOINC for the AI age”
- “Turn wasted compute into global impact”
- “Trustless inference through deterministic consensus”
- “The volunteer network powering humanitarian AI”
- “Because Bellingcat shouldn’t have to outbid Google”
- “Open source compute for open source causes”
- “Privacy-first distributed inference”
- “Idle GPUs, unlimited potential”
Generalized reciprocity focus: 11. “Give compute, get impact” 12. “The more we share, the more we can” 13. “Your GPU’s downtime is someone’s breakthrough” 14. “AI abundance through collective action” 15. “Compute as a commons”
Nederlands:
- “Jouw videokaart, hun doorbraak”
- “Gedistribueerde AI voor het goede doel”
- “Geef rekenkracht, krijg impact”
- “Samen sterker dan de cloud”
8. Concrete Volgende Stappen
Fase 1: Validatie (2-4 weken)
- Demand interviews
- Contact Bellingcat (tech team)
- Contact Mozilla Foundation / Common Voice team
- Contact academic AI researchers (TU Delft, UvA)
- Post op Hacker News / Reddit r/LocalLLaMA voor feedback
- Technical feasibility check
- Test SGLang deterministic mode op 2 identieke GPU setups
- Meet latency overhead van consensus mechanism
- Test PII masking met Presidio of vergelijkbaar
Fase 2: Minimal Viable Product (2-3 maanden)
- Core infrastructure
- Fork SGLang met deterministic verification layer
- Simple P2P discovery (libp2p)
- Basic PII masking pipeline
- Web dashboard voor contributors
- Pilot users
- 10-20 GPU contributors (gaming community, crypto miners)
- 2-3 pilot “goede doel” organisaties
Fase 3: Community & Scale (6-12 maanden)
- Impact visibility
- Public dashboard: “X tokens generated for Y cause”
- Contributor profiles met impact stats
- Case studies en success stories
- Funding
- NLnet Open Call
- NGI Zero
- EU Horizon Europe
- Mozilla Technology Fund
Fase 4: Sustainability
- Commercial tier voor enterprises
- Foundation structure (stichting)
- Governance door community
9. Mogelijke Namen
| Naam | Rationale |
|---|---|
| Lumina | “Bringing light” – AI for good |
| Mesh.AI | P2P / distributed network |
| GiveCompute | Direct, actiegericht |
| IdleGood | Idle GPUs + doing good |
| Verified.AI | Focus op trustless verificatie |
| Commons.ai | Gedeelde resource, commons |
| Altru | Altruism + compute |
| Reciprocal | Generalized reciprocity concept |
10. Financiële Projectie (Optimistisch)
Year 1 (Bootstrap)
- 500 contributors, 20% utilization
- 100% free tier (validation phase)
- Revenue: €0, Costs: €50k (infra + part-time dev)
- Funding: NLnet grant €50-100k
Year 2 (Traction)
- 5.000 contributors, 30% utilization
- 70% free / 20% pay-what-you-can / 10% commercial
- Revenue: €100-200k from commercial
- Impact: 1B+ tokens/maand voor goede doelen
Year 3 (Sustainable)
- 20.000 contributors, 40% utilization
- 50% free / 30% PWYC / 20% commercial
- Revenue: €500k-1M
- Full-time team van 3-5 mensen
Recente reacties