Gedistribueerde GPU Inference met Symmetrische Verificatie

Idee: “Mijn idle GPU hielp Bellingcat oorlogsmisdaden documenteren”

Samenvatting van het idee

Een peer-to-peer netwerk voor LLM inference waar:

  1. Idle GPU’s worden ingezet voor token-generatie
  2. Deterministische output wordt gebruikt voor verificatie (meerdere nodes genereren dezelfde tokens)
  3. Trust-systeem gebaseerd op consensus (tampering = uitsluiting)
  4. Privacy via PII-masking en onion routing
  5. Micropayments of donaties voor compute (crypto of voor goede doelen gratis)

1. Evaluatie & Napkin Math

Is deterministische LLM inference haalbaar?

JA, maar met nuances:

  • Thinking Machines Lab heeft aangetoond dat non-determinisme komt van batch-invariance in GPU kernels, niet van random sampling
  • Met batch-invariant kernels (nu beschikbaar in SGLang) zijn 1000 completions 100% identiek
  • Performance penalty: ~5-15% overhead
  • Vereist: zelfde model weights, zelfde precision (fp16/bf16), batch-invariant kernels

Economische haalbaarheid

Consumer GPU earnings (2025):

ScenarioRTX 4090Netto/maand
Conservatief (35% utilization, €2.5/hr)€610
Optimistisch (50% utilization, €4/hr)€1,412

Vergelijking met gecentraliseerde inference:

  • OpenAI GPT-4o: ~$2.50/1M output tokens
  • Local inference (4090): ~$0.15/1M tokens (alleen stroom)
  • Marge voor distributed netwerk: 10-15x goedkoper mogelijk

Redundantie-kosten voor verificatie:

  • 2x redundant: 50% overhead → nog steeds 5-7x goedkoper
  • Steekproefsgewijs (10% verificatie): ~10% overhead → 9x goedkoper

Napkin math voor scale:

Stel: 10.000 deelnemers met RTX 4090
Gemiddeld 4 uur/dag idle = 40.000 GPU-uren/dag
≈ 1.6M GPU-uren/maand
≈ 50B tokens/maand generatie capaciteit (bij 30 tok/s)

Waarde bij $0.50/1M tokens = $25.000/maand totaal
Per deelnemer: $2.50/maand (als volunteer network)

Conclusie economics: Viable als volunteer network of met crypto incentives, maar niet competitief met datacenter-scale operations voor commerciële klanten.


2. Bestaande Projecten (State of the Art)

Directe concurrenten (gedistribueerde inference):

ProjectTokenFocusVerificatieStatus
io.net$IOGPU aggregatieReputation + stakingLive
Gensyn$GENSML trainingProof-of-ComputeTestnet
Nosana$NOSAI inference (Solana)Job verificationLive
Akash Network$AKTGeneral computeContainer-basedLive, 428% YoY growth
Render Network$RNDRGPU renderingTask completionLive
SaladCloudFiatConsumer GPUsCentralizedLive, 60k+ GPUs
Cocoon (TON)$TONConfidential AITEE-basedAnnounced 2025
Prime IntellectP2P inferencePipeline parallelResearch

Verificatie-specifieke projecten:

ProjectAanpak
Inference LabsZK-proofs (Proof of Inference), $6.3M raised
zkVerifyZero-knowledge proofs
EZKLZK-SNARKs voor ML

Volunteer computing (non-crypto):

  • BOINC – Credits, geen monetary value
  • Folding@home – Wetenschappelijk onderzoek

3. Jouw Differentiatie vs Bestaande Projecten

Wat is NIEUW aan jouw idee:

AspectBestaande projectenJouw idee
VerificatieZK-proofs (duur, complex) of trust-basedSymmetrische verificatie via determinisme (simpeler, goedkoper)
PrivacyMeestal geen, of TEEsPII-masking + onion routing
DoelgroepCommercieelSocial good focus (Bellingcat, OSS)
IncentiveAltijd tokensOptioneel gratis voor goede doelen

Unique Value Proposition:

  1. Simpelere verificatie – geen ZK overhead, alleen deterministische vergelijking
  2. Privacy-by-design – PII masking voorkomt data leakage
  3. Social impact – specifiek voor underfunded organizations

Potentiële zwaktes:

  • Redundantie is waste – 2x compute voor 1x output (ZK is efficiënter op scale)
  • Model-gebonden – beide nodes moeten exact zelfde model+weights hebben
  • Latency – wachten op consensus van meerdere nodes
  • Geen training support – alleen inference (Gensyn doet training)

4. Technische Haalbaarheid

Wat werkt:

  • ✅ Deterministische inference (SGLang, batch-invariant kernels)
  • ✅ P2P netwerken (libp2p, IPFS-achtig)
  • ✅ PII detection/masking (NER models, regex patterns)
  • ✅ Onion routing (Tor-achtig)
  • ✅ Token streaming (WebSockets, SSE)

Uitdagingen:

  • ⚠️ Model distribution – 70B models zijn 140GB, moeilijk te syncen
  • ⚠️ Precision matching – kleine numerieke verschillen kunnen cascaderen
  • ⚠️ Latency – consumer internet vs datacenter
  • ⚠️ Cold start – model laden kost 30-60 sec (dus preloaden en slim routeren)

Architectuur suggestie:

[User] → PII Masking → Onion Routing → [Node A + Node B]
                                              ↓
                                       Token comparison
                                              ↓
                                       Consensus → Output

5. Gekozen Richting: Hybrid Model met Generalized Reciprocity

Het “Give-First” Model

Een community-gedreven platform waar:

  1. Social good als USP – primaire focus op underfunded orgs
  2. Semi-commercieel – betalende klanten financieren de missie
  3. Generalized reciprocity – contributors voelen nut, dragen graag bij
  4. Profit → Impact – meer omzet = meer gratis compute voor goede doelen

Business Model: De GitHub-Analogie

Waarom GitHub’s model werkt:

  1. Gratis voor open → Massive adoption, iedereen leert het
  2. Betaald voor privé → Enterprises betalen voor privacy
  3. Network effect → Developers kennen het van OSS, kiezen het voor werk
  4. Cross-subsidie → Enterprise revenue financiert OSS infrastructure

Vertaald naar dit project:

┌─────────────────────────────────────────────────────────────┐
│                    PRICING MODEL                            │
├─────────────────────────────────────────────────────────────┤
│ PUBLIC INFERENCE    │ Gratis - prompts/outputs zijn        │
│ (like public repos) │ zichtbaar voor verificatie nodes     │
│                     │ Perfect voor: OSS, research, NGOs    │
├─────────────────────┼───────────────────────────────────────┤
│ PRIVATE INFERENCE   │ Betaald - volledige PII masking +    │
│ (like private repos)│ encrypted routing, geen data logging │
│                     │ Perfect voor: Enterprises, startups  │
└─────────────────────┴───────────────────────────────────────┘

Waarom dit werkt:

  • Developers experimenteren gratis met “public” inference
  • Bouwen apps, leren het platform
  • Wanneer ze naar productie gaan → betalen voor privacy
  • Net als GitHub: “I learned Git on public repos, now my company pays”

Revenue Flywheel

Gratis public tier → Developers leren platform →
Startup groeit → Heeft privacy nodig → Betaalt →
Revenue financiert meer gratis compute → Meer developers → ...

Waarom dit werkt (Generalized Reciprocity)

Voor GPU contributors:

  • “Mijn idle GPU hielp Bellingcat oorlogsmisdaden documenteren”
  • Zichtbare impact dashboards
  • Community recognition (niet alleen tokens)
  • Optionele earnings voor wie dat wil

Voor gebruikers:

  • Goedkoper dan centralized (5-10x)
  • Privacy-first (PII masking)
  • Ethisch verantwoord compute

Network effect:

Meer impact zichtbaar → Meer contributors → Meer capaciteit
      ↑                                           ↓
      └──── Meer goede doelen kunnen meedoen ←────┘

Differentiatie vs io.net/Akash

Aspectio.net/AkashDit project
MotivatieFinancieelImpact + optioneel financieel
Branding“Goedkoper dan AWS”“AI voor het goede doel”
CommunityToken holdersMission-driven contributors
VerificatieTrust/stakingDeterministische consensus
Data valueAlleen computeCompute + feedback + adapters

5b. Tweede USP: Data Contribution als Waarde

Niet alleen compute, ook data

Bestaande netwerken (io.net, Akash) leveren alleen compute. Dit project kan ook waardevolle data genereren:

┌─────────────────────────────────────────────────────────────┐
│              DUAL CONTRIBUTION MODEL                        │
├─────────────────────────────────────────────────────────────┤
│ COMPUTE             │ GPU cycles voor inference            │
│ (traditioneel)      │                                       │
├─────────────────────┼───────────────────────────────────────┤
│ DATA                │ Human feedback, preferences,         │
│ (nieuw!)            │ corrections, domain expertise        │
└─────────────────────┴───────────────────────────────────────┘

Wat kan gecollect worden (opt-in):

  1. RLHF Data
    • Gebruikers geven thumbs up/down op outputs
    • Preference pairs: “Output A is beter dan B”
    • Dit is EXTREEM waardevol – OpenAI betaalt miljoenen voor dit soort data
  2. Domain-Specific Adapters
    • Community traint LoRA adapters voor specifieke domeinen
    • Legal, medical, journalism, coding, etc.
    • Adapters worden gedeeld als “open weights”
  3. Correction Data
    • Gebruikers corrigeren fouten in outputs
    • Bouwt dataset voor fine-tuning
  4. Synthetic Training Data
    • Goede outputs + human validation
    • Kan gebruikt worden om kleinere/snellere modellen te trainen

Data Flywheel

Gebruikers geven feedback → Data verbetert model/adapter →
Betere outputs → Meer gebruikers → Meer feedback → ...

Waarom dit uniek is

PlatformComputeDataModel verbetering
OpenAI✅ (closed)Alleen voor OpenAI
io.netNee
Hugging Face✅ (open)Community models
Dit project✅ (open)Terug naar community

Incentive voor data contribution

  • Gratis compute credits voor feedback
  • Recognition als data contributor
  • Early access tot verbeterde modellen
  • Co-authorship op open adapters

Privacy considerations

  • Alle feedback is opt-in
  • PII wordt gestript vóór opslag
  • Data is anoniem en geaggregeerd
  • Gebruikers kunnen kiezen: “help verbeter het model” vs “volledig privé”

6. Risico’s en Mitigatie

RisicoMitigatie
Niet genoeg contributorsStart met social proof (Bellingcat case study)
Commercieel kannibaliseerd impactHarde ratio: min. 30% compute naar Tier 1
Tech te complexBegin met 1 model (Llama 3.1 70B), itereer
Privacy leaksPII masking + onion routing + audits
Latency te hoogRegional clustering, model pre-loading

7. Taglines (10 opties voor een pitch)

  1. “Your idle GPU can change the world”
  2. “Democratizing AI for those who need it most”
  3. “BOINC for the AI age”
  4. “Turn wasted compute into global impact”
  5. “Trustless inference through deterministic consensus”
  6. “The volunteer network powering humanitarian AI”
  7. “Because Bellingcat shouldn’t have to outbid Google”
  8. “Open source compute for open source causes”
  9. “Privacy-first distributed inference”
  10. “Idle GPUs, unlimited potential”

Generalized reciprocity focus: 11. “Give compute, get impact” 12. “The more we share, the more we can” 13. “Your GPU’s downtime is someone’s breakthrough” 14. “AI abundance through collective action” 15. “Compute as a commons”

Nederlands:

  • “Jouw videokaart, hun doorbraak”
  • “Gedistribueerde AI voor het goede doel”
  • “Geef rekenkracht, krijg impact”
  • “Samen sterker dan de cloud”

8. Concrete Volgende Stappen

Fase 1: Validatie (2-4 weken)

  1. Demand interviews
    •  Contact Bellingcat (tech team)
    •  Contact Mozilla Foundation / Common Voice team
    •  Contact academic AI researchers (TU Delft, UvA)
    •  Post op Hacker News / Reddit r/LocalLLaMA voor feedback
  2. Technical feasibility check
    •  Test SGLang deterministic mode op 2 identieke GPU setups
    •  Meet latency overhead van consensus mechanism
    •  Test PII masking met Presidio of vergelijkbaar

Fase 2: Minimal Viable Product (2-3 maanden)

  1. Core infrastructure
    • Fork SGLang met deterministic verification layer
    • Simple P2P discovery (libp2p)
    • Basic PII masking pipeline
    • Web dashboard voor contributors
  2. Pilot users
    • 10-20 GPU contributors (gaming community, crypto miners)
    • 2-3 pilot “goede doel” organisaties

Fase 3: Community & Scale (6-12 maanden)

  1. Impact visibility
    • Public dashboard: “X tokens generated for Y cause”
    • Contributor profiles met impact stats
    • Case studies en success stories
  2. Funding
    • NLnet Open Call
    • NGI Zero
    • EU Horizon Europe
    • Mozilla Technology Fund

Fase 4: Sustainability

  1. Commercial tier voor enterprises
  2. Foundation structure (stichting)
  3. Governance door community

9. Mogelijke Namen

NaamRationale
Lumina“Bringing light” – AI for good
Mesh.AIP2P / distributed network
GiveComputeDirect, actiegericht
IdleGoodIdle GPUs + doing good
Verified.AIFocus op trustless verificatie
Commons.aiGedeelde resource, commons
AltruAltruism + compute
ReciprocalGeneralized reciprocity concept

10. Financiële Projectie (Optimistisch)

Year 1 (Bootstrap)

  • 500 contributors, 20% utilization
  • 100% free tier (validation phase)
  • Revenue: €0, Costs: €50k (infra + part-time dev)
  • Funding: NLnet grant €50-100k

Year 2 (Traction)

  • 5.000 contributors, 30% utilization
  • 70% free / 20% pay-what-you-can / 10% commercial
  • Revenue: €100-200k from commercial
  • Impact: 1B+ tokens/maand voor goede doelen

Year 3 (Sustainable)

  • 20.000 contributors, 40% utilization
  • 50% free / 30% PWYC / 20% commercial
  • Revenue: €500k-1M
  • Full-time team van 3-5 mensen

Bronnen

Dit vind je misschien ook leuk...

Geef een reactie

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.