Introduzione

Google sta distribuendo acceleratori hardware per l’inferenza su laptop, telefoni e dispositivi IoT e li sta fornendo con un’API Prompt rivolta agli sviluppatori che si trova in Chrome. La mossa è una risposta diretta ad Amazon’s AWS Snowball Edge e Microsoft’s Azure Stack, che offrono già capacità AI on-premise. La tempistica di Google coincide con un più ampio spostamento del settore verso l’inferenza localizzata, una tendenza che promette una latenza inferiore e costi di trasferimento dei dati ridotti.

L’API Prompt di Chrome espande l’AI sul dispositivo

L’API Prompt consente agli sviluppatori web di inviare prompt di testo a modelli linguistici ospitati localmente. L’API si trova sotto lo spazio dei nomi chrome.ai e rispecchia il modello richiesta-risposta degli endpoint LLM lato server, ma viene eseguito interamente nel browser. La documentazione su developer.chrome.com mostra una semplice chiamata JavaScript che restituisce il completamento di un modello senza lasciare il client. L’API supporta modelli che implementano lo schema compatibile con OpenAI.

Hardware e software edge

Lo sforzo edge di Google include acceleratori TPU-Edge, che forniscono un impulso hardware per l’inferenza sui dispositivi. Il Financial Times riferisce che Google sta combinando questi acceleratori con una pila software che rispecchia i modelli generativi di Google Cloud.

Pipeline di talenti e sfruttamento degli ingegneri senior

Un articolo di opinione su EvalCode sostiene che l’interruzione delle nuove assunzioni dà agli ingegneri senior un controllo sproporzionato sulle decisioni architettoniche. L’autore nota che la proprietà degli ingegneri senior può portare a progetti monolitici che resistono a rapide iterazioni, un rischio amplificato quando si distribuiscono modelli AI sul bordo. L’articolo cita uno schema: i team che mantengono un flusso costante di giovani talenti tendono a sperimentare di più con le API emergenti.

Pressione competitiva e implicazioni di mercato

Amazon e Microsoft hanno già commercializzato l’AI edge attraverso i dispositivi Snowball Edge e Azure Stack HCI, rispettivamente. L’ingresso di Google si concentra sull’integrazione dei suoi modelli nel browser Chrome, trasformando di fatto ogni dispositivo abilitato Chrome in un potenziale nodo di inferenza. Ciò potrebbe spostare la curva dei costi per gli sviluppatori che non devono più acquistare box edge specializzati per eseguire LLM.

Contesto di settore

La tendenza verso l’AI edge è guidata dalla necessità di una latenza inferiore e di costi di trasferimento dei dati ridotti. Man mano che la quantità di dati generati dai dispositivi continua a crescere, la necessità di una lavorazione localizzata diventa sempre più importante. L’API Prompt di Google è ben posizionata per approfittare di questa tendenza, poiché consente agli sviluppatori di eseguire modelli AI direttamente sui dispositivi, riducendo la necessità di una lavorazione basata su cloud.

Storia dell’AI Edge

Il concetto di AI edge non è nuovo, ma i recenti progressi nell’hardware e nel software lo hanno reso più fattibile. Società come Amazon e Microsoft hanno investito nell’AI edge per diversi anni e l’ingresso di Google nel mercato è uno sviluppo significativo. L’uso di acceleratori TPU-Edge e dell’API Prompt segna una nuova era nell’AI edge, poiché fornisce una pila hardware e software specificamente progettata per l’inferenza localizzata.

Meccanica tecnica

L’API Prompt utilizza un ambiente sandboxato per impedire l’esecuzione di codice arbitrario, che è una funzione di sicurezza fondamentale. L’API supporta anche modelli che implementano lo schema compatibile con OpenAI, che fornisce un’interfaccia standardizzata per interagire con i modelli linguistici. L’uso di acceleratori TPU-Edge fornisce un impulso significativo alle prestazioni di inferenza, rendendo possibile eseguire modelli AI complessi sui dispositivi.

Implicazioni a valle

Le implicazioni degli sforzi di Google per l’AI edge sono di vasta portata. Man mano che il costo dell’esecuzione di modelli AI sui dispositivi diminuisce, possiamo aspettarci di vedere una proliferazione di applicazioni potenziate dall’AI. Ciò potrebbe portare a nuovi casi d’uso e modelli di business, poiché le società cercano di approfittare delle capacità fornite dall’AI edge. Il prossimo trimestre sarà cruciale per determinare il successo degli sforzi di Google per l’AI edge, poiché la società cerca di guadagnare terreno in un mercato dominato da Amazon e Microsoft.

Cosa guardare

Il prossimo trimestre rivelerà se la pila edge di Google guadagna terreno. Gli indicatori chiave includono il volume delle chiamate API Prompt segnalate nella telemetria di Chrome, i benchmark di terze parti che confrontano le prestazioni sul dispositivo con quelle delle GPU AWS Snowball Edge e qualsiasi annuncio aziendale di prodotti AI basati su Chrome.

Sviluppi futuri

Man mano che il mercato dell’AI edge continua a evolversi, possiamo aspettarci di vedere nuovi sviluppi da Google e dai suoi concorrenti. La concentrazione della società sull’integrazione dei suoi modelli nel browser Chrome è un passo significativo in avanti, ma dovrà continuare a innovare per rimanere davanti alla concorrenza. L’uso di acceleratori TPU-Edge e dell’API Prompt è una solida base, ma Google dovrà costruire su questa base per raggiungere un successo a lungo termine.

Conclusione

L’espansione delle capacità AI edge di Google con l’API Prompt di Chrome è uno sviluppo significativo nel mercato dell’AI edge. La concentrazione della società sull’integrazione dei suoi modelli nel browser Chrome e sulla fornitura di una pila hardware e software per l’inferenza localizzata è un passo significativo in avanti. Man mano che il mercato continua a evolversi, possiamo aspettarci di vedere nuovi sviluppi da Google e dai suoi concorrenti e il prossimo trimestre sarà cruciale per determinare il successo degli sforzi di Google per l’AI edge.