OpenAI ha annunciato oggi 29 agosto 2025 il lancio di GPT-Realtime, il suo modello di intelligenza artificiale più avanzato per la comunicazione vocale. La nuova API Realtime è ora disponibile per tutti, con un prezzo ridotto del 20% rispetto alle versioni precedenti. GPT-Realtime introduce un’architettura unificata che elabora l’audio in modo diretto, migliorando la velocità e la qualità delle conversazioni, e supporta nuove voci più naturali, Cedar e Marin. Tra le nuove funzionalità figurano il supporto per immagini, chiamate telefoniche SIP e server remoti. Il modello ha ottenuto risultati superiori nei test di ragionamento audio e viene adottato in settori come assistenza clienti, istruzione e assistenti personali.
Eccolo qui, il nuovo feticcio del progresso: GPT-Realtime. Un nome che sembra la minaccia di una notifica in arrivo, ma in realtà è l’ennesimo giocattolo per sviluppatori in cerca di qualche euro risparmiato sulla bolletta del cloud. OpenAI vi racconta la favola: niente più traduzioni da voce a testo e da testo a voce, ora l’IA ascolta e risponde direttamente, così non avete neanche il tempo di capire che state parlando con una macchina. Se prima vi bastava un attimo per accorgervi dell’artificiale, ora la latenza è ridotta: la brutale verità vi colpisce più in fretta, e colpisce meglio.
Nuove voci, dicevano, Cedar e Marin. Chi di voi non aspettava con ansia di essere servito telefonicamente da una voce “più naturale e adattabile”? Perché, si sa, nel XXI secolo bisogna sentirsi coccolati anche da un chatbot. E certo, ora le API gestiscono immagini, telefonate SIP e server remoti: tutti dettagli che entusiasmano i programmatori, mentre gli utenti comuni si chiedono ancora perché il servizio clienti della propria banca capisce solo “ripeti”.
Il prezzo scende del 20%. Un affare: pagate di meno per farvi dire da una macchina che il vostro problema “è stato preso in carico”. Tutto in nome dell’accessibilità. Un eufemismo per dire che la tecnologia sta diventando così economica che anche il call center dell’officina sotto casa potrebbe sostituire il tizio che masticava la pizza al telefono con una IA che mastica le vostre lamentele e le risputa senza battere ciglio.
L’architettura “unificata”. Tradotto: una scorciatoia tecnica che, almeno per ora, sembra funzionare abbastanza bene da giustificare una conferenza stampa. L’audio reasoning migliora, le funzioni complesse vengono eseguite meglio, ma, attenzione, nella realtà di tutti i giorni c’è ancora spazio per i soliti errori. Perché le IA ragionano veloce, ma quando la conversazione si fa lunga e ci sono da seguire istruzioni articolate, anche la “magia” del Realtime inciampa. Quindi preparatevi: qualche figuraccia la farà anche la macchina, non solo voi.
Ma la vera chicca è la “emotional expressiveness”. La macchina vi parla con più sentimento. Un po’ come il vostro collega che recita la parte dell’entusiasta il lunedì mattina: vi inganna per un attimo, poi vi ricordate che è tutto finto. La differenza? Il collega almeno ogni tanto si sbottona davanti al caffè.
Alla fine, ci ritroveremo a discutere su quale voce d’IA scegliere, come se cambiasse qualcosa tra essere ignorati da Cedar o da Marin. E OpenAI gongola: meno errori, più naturalezza, prezzi più bassi. Siete felici? O avete già nostalgia della segreteria telefonica che gracchiava “non posso parlare ora”? Tanto, in ogni caso, la scelta non è vostra: è dell’azienda che vi vuole servire il meno possibile, facendo finta di essere presente.
Le informazioni contenute in questo sito non costituiscono consigli né offerte di servizi di investimento.
Leggi il Disclaimer »