16.000 Tokens/s: El Fin de la GPU

02 de marzo de 2026

general
16.000 Tokens/s: El Fin de la GPU

Acabo de probar Chat Jimmy y mi percepción de la velocidad acaba de romperse para siempre.

Estamos acostumbrados a medir la velocidad en "tokens por segundo". GPT-4o es rápido. Groq es muy rápido (500 t/s). Pero Taalas acaba de patear el tablero con 16.000 tokens por segundo.

Direct Silicon Intelligence

El secreto no es una GPU más grande. Es eliminar la GPU. Taalas imprime los pesos del modelo (Llama 3.1 8B) directamente en el silicio.

La desventaja es obvia: el chip ES el modelo. Si querés actualizar a Llama 4, tenés que fabricar otro chip. Es inmutable. Pero para modelos estables y commodities (como un 8B para tu tostadora o tu auto), es el futuro inevitable.

Probá la demo ahora:

chatjimmy.ai

La inferencia local y soberana necesita esto. Imaginá un pendrive que corre un modelo 70B instantáneo, alimentado por el USB. No estamos lejos.

← Volver al blog