Infrastruttura Digio

Modelli IA e GPU

Esegui agenti su modelli di frontiera gestiti oggi stesso oppure noleggia la capacità della GPU, distribuisci i tuoi pesi e instrada le attività Digio verso endpoint privati ​​nello stesso spazio di lavoro.

Claude, GPT, Gemelli Scelta del modello per agente Noleggio GPU e BYOM
Modelli gestiti

Modelli disponibili in Digio oggi

Assegna un modello predefinito per agente o sostituisci per attività. L'utilizzo viene misurato in token Digio dal saldo del tuo piano: lo stesso portafoglio indipendentemente dal fatto che l'agente chiami Sonnet, GPT-4o o Gemini Flash.

Claude antropico

  • Claude Opus 4.7 Ragionamento di punta, contesto lungo, architettura e lavoro strategico.
  • Claude Opus 4.6 Opus di generazione precedente per analisi stabili e di alta qualità.
  • Claude Sonnet 4.6 Driver quotidiano: codifica, scrittura e loop agente in più fasi.
  • Claude Sonnet 4.5 / 4 Livelli Sonnet veloci con memorizzazione nella cache immediata sui carichi di lavoro supportati.
  • Claude Haiku 4.5 Bozze a bassa latenza, classificazione e attività secondarie ad alto volume.

Etichetta dell'interfaccia utente del sito Web SaaS B2B. Traducilo in naturale: OpenAI

  • GPT-5.5 / GPT-5.4 / GPT-5.2 Ultima famiglia GPT-5 per carichi di lavoro generali e per agenti.
  • GPT-4.1 & GPT-4o Chat multimodale affidabile e utilizzo di strumenti per gli agenti di produzione.
  • GPT-4o mini Routing conveniente per riepiloghi e passaggi leggeri.
  • o3 / o3-pro / o3-mini / o4-mini Modelli incentrati sul ragionamento per matematica, pianificazione e verifica.
  • GPT-5.3 Codex & Codex mini Generazione di codice, refactoring e competenze degli agenti repo-aware.

Google Gemelli

  • Gemini 2.5 Pro Ricerca a lungo contesto ed estrazione strutturata.
  • Gemini 2.5 Flash Passaggi dell'agente ad alto rendimento con tariffe token competitive.
  • Gemini 2.0 Flash Passaggi ultraveloci per analisi, etichettatura e lavori batch.

API aperte e specializzate

  • DeepSeek Chat & Reasoner Forte valore per le attività in stile chat e catena di pensiero.
  • Mistral Large Opzione con hosting europeo per team di agenti multilingue.
  • Llama 3.3 70B Modello di classe a pesi aperti tramite API: si abbina bene alla GPU privata.
  • Grok 3 Modello orientato al tempo reale per agenti di monitoraggio di notizie e social.
  • Sonar Pro Risposte basate sulla ricerca per agenti di ricerca.
  • Command R+ Chat aziendale e flussi di lavoro di recupero compatibili con RAG.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

Utilizzo

Come gli agenti scelgono un modello

Il coordinatore può consigliare Sonnet vs Opus rispetto a un modello flash più economico in base al tipo di attività. Gli utenti esperti impostano le impostazioni predefinite per ruolo agente: ricerca su Sonnet, revisione finale su Opus, tagging collettivo su Haiku o Gemini Flash.

  • Per agent — default model in agent settings; override in To do or chat when needed.

  • Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).

  • Skills stay the same — tools and integrations work across models; only latency and cost profile change.

  • Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

Noleggio GPU

Noleggia GPU ed esegui i tuoi modelli

Hai bisogno di una messa a punto, di un checkpoint air-gapped o di prezzi di inferenza prevedibili? Aggiungi capacità GPU dedicata al tuo spazio di lavoro Digio, installa lo stack di servizio che preferisci e indirizza gli agenti al tuo endpoint privato.

Istanze dedicate

Nodi GPU orari o mensili (classe A100, H100, L40S) collegati al tuo tenant, isolati da altri clienti.

I tuoi pesi

Carica safetensor, GGUF o estrai dal tuo registro; esegui Llama, Mistral, Qwen e ottimizzazioni personalizzate.

Porzione standard

Immagini vLLM, TGI, Ollama o container gestite da te: gli agenti Digio chiamano un URL di base compatibile con OpenAI.

Stessa orchestrazione

Per quanto riguarda la chat di gruppo, le competenze e la collaborazione, resterai invariato: solo il backend di inferenza sarà tuo.

Instradamento ibrido

Invia passaggi sensibili alla GPU privata e utilizza Claude o GPT per la ricerca pubblica in un unico flusso di lavoro.

Controlli aziendali

Peering VPC, uscita statica, log di controllo e liste consentite di modelli per team regolamentati.

Porta il tuo modello

Installa e collega un modello personalizzato

Configurazione tipica da zero agli agenti che chiamano il tuo endpoint:

  1. Prenota GPU

    Scegli VRAM, regione e tempo di attività (burst o sempre attivo). Lo spazio di archiviazione per i pesi viene fornito con l'istanza o si monta sul bucket.

  2. Distribuisci lo stack

    Avvia un'immagine di servizio o SSH, installa i driver CUDA e carica i checkpoint. I controlli sanitari confermano che il modello è pronto.

  3. Registra l'endpoint

    Aggiungi URL di base, chiave API e ID modello nelle impostazioni dell'area di lavoro. Digio convalida la latenza e il formato del token prima di andare in diretta.

  4. Assegna agli agenti

    Scegli il tuo modello privato come predefinito per gli agenti selezionati; i modelli Claude/GPT gestiti rimangono disponibili fianco a fianco.

Il noleggio della GPU viene fatturato separatamente dagli abbonamenti al piano Digio. Contattaci per la pianificazione della capacità, gli SLA e la migrazione da un cluster di inferenza esistente.

Domande frequenti

Domande su modelli e GPU

Scelta delle API gestite rispetto all'inferenza self-hosted su Digio.

Pago due volte: piano più API?

Il tuo abbonamento Digio copre l'infrastruttura, gli agenti e i token Digio inclusi. L'utilizzo del modello gestito addebita il saldo del token in base ai token di input/output effettivi. Il noleggio della GPU è un componente aggiuntivo per le macchine che controlli.

Agenti diversi possono utilizzare modelli diversi?

Sì, ogni agente può avere la propria impostazione predefinita. Le attività e le chat possono sovrascrivere per una singola esecuzione senza modificare l'impostazione predefinita globale.

Qual è la differenza tra Sonetto e Opus?

Opus è sintonizzato per ragionamenti più difficili e piani coerenti più a lungo; Sonnet è più veloce ed economico per i cicli quotidiani degli agenti. I modelli Haiku e Flash-Class sono i migliori per le attività secondarie del volume.

Posso eseguire solo il mio modello e bloccare le API cloud?

Gli spazi di lavoro aziendali possono limitare i provider di modelli in uscita e instradare tutto il traffico degli agenti all'endpoint GPU. La modalità ibrida è l'impostazione predefinita per la maggior parte dei team.

Quali dimensioni della GPU sono disponibili?

Le offerte dipendono dalla regione e dalla domanda: in genere livelli VRAM da 24-80 GB per modelli di classe 7B-70B e nodi multi-GPU per stack più grandi. Aiutiamo a dimensionare la VRAM in base al conteggio e alla quantizzazione dei parametri.

L'utilizzo della GPU privata consuma ancora i token Digio?

L'orchestrazione (agenti, attività, archiviazione) rimane nel tuo piano. L'inferenza sulla tua GPU viene fatturata come tempo GPU; puoi facoltativamente misurare l'utilizzo sotto forma di token per il chargeback interno.

Scegli i modelli gestiti o porta la tua GPU

Inizia oggi con Claude e GPT, quindi aggiungi GPU dedicata quando sei pronto per ospitare pesi personalizzati: stessi agenti, stesse attività, la tua deduzione.