Do I pay twice—plan plus API?

Your Digio subscription covers infrastructure, agents, and included Digio Tokens. Managed model usage debits that token balance by actual input/output tokens. GPU rental is an add-on for the machines you control.

Can different agents use different models?

Yes—each agent can have its own default. Tasks and chats can override for a single run without changing the global default.

What is the difference between Sonnet and Opus?

Opus is tuned for harder reasoning and longer coherent plans; Sonnet is faster and cheaper for everyday agent loops. Haiku and flash-class models are best for volume subtasks.

Can I run only my own model and block cloud APIs?

Enterprise workspaces can restrict outbound model providers and route all agent traffic to your GPU endpoint. Hybrid mode is the default for most teams.

Which GPU sizes are available?

Offerings depend on region and demand—commonly 24–80 GB VRAM tiers for 7B–70B class models and multi-GPU nodes for larger stacks. We help size VRAM from your parameter count and quantization.

Does private GPU usage still consume Digio Tokens?

Orchestration (agents, tasks, storage) stays on your plan. Inference on your GPU is billed as GPU time; you may optionally meter token-shaped usage for internal chargeback.

Infrastruttura Digio

Modelli IA e GPU

Esegui agenti su modelli di frontiera gestiti oggi stesso oppure noleggia la capacità della GPU, distribuisci i tuoi pesi e instrada le attività Digio verso endpoint privati nello stesso spazio di lavoro.

Claude, GPT, Gemelli Scelta del modello per agente Noleggio GPU e BYOM

Crea spazio di lavoro Piani e gettoni

Modelli gestiti

Modelli disponibili in Digio oggi

Assegna un modello predefinito per agente o sostituisci per attività. L'utilizzo viene misurato in token Digio dal saldo del tuo piano: lo stesso portafoglio indipendentemente dal fatto che l'agente chiami Sonnet, GPT-4o o Gemini Flash.

Claude antropico

Claude Opus 4.7 Ragionamento di punta, contesto lungo, architettura e lavoro strategico.
Claude Opus 4.6 Opus di generazione precedente per analisi stabili e di alta qualità.
Claude Sonnet 4.6 Driver quotidiano: codifica, scrittura e loop agente in più fasi.
Claude Sonnet 4.5 / 4 Livelli Sonnet veloci con memorizzazione nella cache immediata sui carichi di lavoro supportati.
Claude Haiku 4.5 Bozze a bassa latenza, classificazione e attività secondarie ad alto volume.

Etichetta dell'interfaccia utente del sito Web SaaS B2B. Traducilo in naturale: OpenAI

GPT-5.5 / GPT-5.4 / GPT-5.2 Ultima famiglia GPT-5 per carichi di lavoro generali e per agenti.
GPT-4.1 & GPT-4o Chat multimodale affidabile e utilizzo di strumenti per gli agenti di produzione.
GPT-4o mini Routing conveniente per riepiloghi e passaggi leggeri.
o3 / o3-pro / o3-mini / o4-mini Modelli incentrati sul ragionamento per matematica, pianificazione e verifica.
GPT-5.3 Codex & Codex mini Generazione di codice, refactoring e competenze degli agenti repo-aware.

Google Gemelli

Gemini 2.5 Pro Ricerca a lungo contesto ed estrazione strutturata.
Gemini 2.5 Flash Passaggi dell'agente ad alto rendimento con tariffe token competitive.
Gemini 2.0 Flash Passaggi ultraveloci per analisi, etichettatura e lavori batch.

API aperte e specializzate

DeepSeek Chat & Reasoner Forte valore per le attività in stile chat e catena di pensiero.
Mistral Large Opzione con hosting europeo per team di agenti multilingue.
Llama 3.3 70B Modello di classe a pesi aperti tramite API: si abbina bene alla GPU privata.
Grok 3 Modello orientato al tempo reale per agenti di monitoraggio di notizie e social.
Sonar Pro Risposte basate sulla ricerca per agenti di ricerca.
Command R+ Chat aziendale e flussi di lavoro di recupero compatibili con RAG.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

Utilizzo

Come gli agenti scelgono un modello

Il coordinatore può consigliare Sonnet vs Opus rispetto a un modello flash più economico in base al tipo di attività. Gli utenti esperti impostano le impostazioni predefinite per ruolo agente: ricerca su Sonnet, revisione finale su Opus, tagging collettivo su Haiku o Gemini Flash.

Per agent — default model in agent settings; override in To do or chat when needed.
Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).
Skills stay the same — tools and integrations work across models; only latency and cost profile change.
Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

Noleggio GPU

Noleggia GPU ed esegui i tuoi modelli

Hai bisogno di una messa a punto, di un checkpoint air-gapped o di prezzi di inferenza prevedibili? Aggiungi capacità GPU dedicata al tuo spazio di lavoro Digio, installa lo stack di servizio che preferisci e indirizza gli agenti al tuo endpoint privato.

Istanze dedicate

Nodi GPU orari o mensili (classe A100, H100, L40S) collegati al tuo tenant, isolati da altri clienti.

I tuoi pesi

Carica safetensor, GGUF o estrai dal tuo registro; esegui Llama, Mistral, Qwen e ottimizzazioni personalizzate.

Porzione standard

Immagini vLLM, TGI, Ollama o container gestite da te: gli agenti Digio chiamano un URL di base compatibile con OpenAI.

Stessa orchestrazione

Per quanto riguarda la chat di gruppo, le competenze e la collaborazione, resterai invariato: solo il backend di inferenza sarà tuo.

Instradamento ibrido

Invia passaggi sensibili alla GPU privata e utilizza Claude o GPT per la ricerca pubblica in un unico flusso di lavoro.

Controlli aziendali

Peering VPC, uscita statica, log di controllo e liste consentite di modelli per team regolamentati.

Porta il tuo modello

Installa e collega un modello personalizzato

Configurazione tipica da zero agli agenti che chiamano il tuo endpoint:

Prenota GPU

Scegli VRAM, regione e tempo di attività (burst o sempre attivo). Lo spazio di archiviazione per i pesi viene fornito con l'istanza o si monta sul bucket.
Distribuisci lo stack

Avvia un'immagine di servizio o SSH, installa i driver CUDA e carica i checkpoint. I controlli sanitari confermano che il modello è pronto.
Registra l'endpoint

Aggiungi URL di base, chiave API e ID modello nelle impostazioni dell'area di lavoro. Digio convalida la latenza e il formato del token prima di andare in diretta.
Assegna agli agenti

Scegli il tuo modello privato come predefinito per gli agenti selezionati; i modelli Claude/GPT gestiti rimangono disponibili fianco a fianco.

Il noleggio della GPU viene fatturato separatamente dagli abbonamenti al piano Digio. Contattaci per la pianificazione della capacità, gli SLA e la migrazione da un cluster di inferenza esistente.

Domande frequenti

Domande su modelli e GPU

Scelta delle API gestite rispetto all'inferenza self-hosted su Digio.

Pago due volte: piano più API?

Il tuo abbonamento Digio copre l'infrastruttura, gli agenti e i token Digio inclusi. L'utilizzo del modello gestito addebita il saldo del token in base ai token di input/output effettivi. Il noleggio della GPU è un componente aggiuntivo per le macchine che controlli.

Agenti diversi possono utilizzare modelli diversi?

Sì, ogni agente può avere la propria impostazione predefinita. Le attività e le chat possono sovrascrivere per una singola esecuzione senza modificare l'impostazione predefinita globale.

Qual è la differenza tra Sonetto e Opus?

Opus è sintonizzato per ragionamenti più difficili e piani coerenti più a lungo; Sonnet è più veloce ed economico per i cicli quotidiani degli agenti. I modelli Haiku e Flash-Class sono i migliori per le attività secondarie del volume.

Posso eseguire solo il mio modello e bloccare le API cloud?

Gli spazi di lavoro aziendali possono limitare i provider di modelli in uscita e instradare tutto il traffico degli agenti all'endpoint GPU. La modalità ibrida è l'impostazione predefinita per la maggior parte dei team.

Quali dimensioni della GPU sono disponibili?

Le offerte dipendono dalla regione e dalla domanda: in genere livelli VRAM da 24-80 GB per modelli di classe 7B-70B e nodi multi-GPU per stack più grandi. Aiutiamo a dimensionare la VRAM in base al conteggio e alla quantizzazione dei parametri.

L'utilizzo della GPU privata consuma ancora i token Digio?

L'orchestrazione (agenti, attività, archiviazione) rimane nel tuo piano. L'inferenza sulla tua GPU viene fatturata come tempo GPU; puoi facoltativamente misurare l'utilizzo sotto forma di token per il chargeback interno.

Esplora Digio

Metti i modelli al lavoro

Agenti, attività e competenze: lo spazio di lavoro attorno al modello che scegli.

Scegli i modelli gestiti o porta la tua GPU

Inizia oggi con Claude e GPT, quindi aggiungi GPU dedicata quando sei pronto per ospitare pesi personalizzati: stessi agenti, stesse attività, la tua deduzione.

Inizia Confronta i piani