Serverless

Inizia

Endpoint

L'opzione New Endpoint consente agli utenti di creare un servizio Serverless utilizzando immagini e configurazioni personalizzate.

Parametri di Configurazione

  • Nome Endpoint

    • Nome personalizzato per il tuo endpoint
    • Supporta set di caratteri UTF-8
    • Massimo 128 caratteri
    • Deve essere unico nel tuo account
  • Configurazione Worker

    • Active Workers: Numero iniziale e minimo di worker (predefinito: 1)
    • Max Workers: Numero massimo di worker per la scalabilità automatica
    • GPU / Worker: Numero di GPU per worker (intervallo: 1-8)
  • Impostazioni Container

    • Immagine Container: Immagine Docker da utilizzare per il servizio
    • Comando di Avvio Container: Comando da eseguire all'avvio del container
      • Facoltativo: Utilizza l'entrypoint dell'immagine se non specificato
    • Shell: Specifica l'ambiente shell per il comando
      • Predefinito: /bin/sh
      • Regolabile in base ai requisiti dell'immagine
  • Configurazione di Rete

    • Data Center: Cluster target per l'esecuzione del servizio serverless
      • Considera l'ambiente di rete e la disponibilità delle GPU
    • Porta HTTP: Porta per il servizio HTTP esterno
      • Solo una porta
      • Le richieste all'URL Endpoint vengono inoltrate a questa porta
      • Il container deve essere in ascolto su questa porta
  • Ambiente

    • Variabili d'Ambiente: Configura più variabili d'ambiente per il container
  • Impostazioni Avanzate

    • Volume di Rete: Opzione per montare storage di rete persistente
    • Percorso di Montaggio Volume di Rete: Specifica il percorso di montaggio per lo storage persistente

Quick Deploys

Quick Deploys ti consente di distribuire Endpoint personalizzati di modelli popolari con configurazione minima.

Come iniziare con Quick Deploys?

Come interagire con Atlas Cloud Serverless?

Dopo aver creato un endpoint serverless, la piattaforma genera un URL di dominio che ti consente di accedere al servizio:

https://${SERVERLESS_ID}.${REGION}.atlascloud.ai/

I componenti dell'URL:

  • SERVERLESS_ID: Il tuo identificatore endpoint univoco
  • REGION: La regione di distribuzione (es. us-east, eu-west)

Scalabilità Automatica

Le distribuzioni serverless iniziano con un worker per impostazione predefinita. La piattaforma gestisce automaticamente la scalabilità in base alle richieste concorrenti e all'utilizzo delle risorse.

Funzionalità chiave della scalabilità automatica:

  • Active Workers: Numero minimo di worker che saranno sempre in esecuzione, indipendentemente dal carico
  • Max Workers: Numero massimo di worker che possono essere creati durante periodi di alto carico
  • GPU / Worker: Numero di GPU allocate a ciascuna istanza worker, influenzando la capacità di elaborazione

Il sistema di scalabilità automatica segue queste regole:

  • Scale Up:

    • Si attiva quando le richieste concorrenti per worker superano 100
    • Nuovi worker vengono aggiunti entro 30-60 secondi
    • Scala in incrementi basati sul carico delle richieste
    • Tasso massimo di scale-up: 200% della capacità attuale per 60 secondi
  • Scale Down:

    • Inizia quando le richieste concorrenti scendono al di sotto della soglia
    • Richiede 60 secondi di basso utilizzo prima di ridurre la scala
    • Riduce un worker alla volta
    • Mantiene il conteggio minimo degli Active Workers
    • Tasso massimo di scale-down: 100% della capacità attuale per 60 secondi
  • Limiti di Scalabilità:

    • Minimo: Conteggio Active Workers
    • Massimo: Impostazione Max Workers
    • Scale to zero: Solo se Active Workers è impostato su 0
  • Cold Start:

    • I nuovi worker impiegano 30-60 secondi per diventare disponibili
    • Considera questo ritardo quando pianifichi picchi di traffico

Casi d'Uso

  1. Inferenza AI

    • Large Language Models (LLM)
    • Stable Diffusion
    • Computer Vision
    • Riconoscimento Vocale
  2. Servizi API

    • API RESTful
    • Supporto WebSocket
    • Endpoint Personalizzati

Gestione delle Tue Istanze

Dopo la distribuzione, puoi gestire le tue istanze serverless per ottimizzare i costi:

  • Controllo Start/Stop: Metti in pausa le istanze quando non sono necessarie e riprendile istantaneamente
  • Risparmio sui Costi: Nessun addebito mentre le istanze sono fermate
  • Ripristino Rapido: Riavvia le istanze fermate in meno di un minuto
  • Configurazione Preservata: Tutte le impostazioni e gli URL rimangono intatti

Scopri di più su Gestione delle Istanze