16.000 Tokens/s: El Fin de la GPU

Acabo de probar Chat Jimmy y mi percepción de la velocidad acaba de romperse para siempre.

Estamos acostumbrados a medir la velocidad en "tokens por segundo". GPT-4o es rápido. Groq es muy rápido (500 t/s). Pero Taalas acaba de patear el tablero con 16.000 tokens por segundo.

Direct Silicon Intelligence

El secreto no es una GPU más grande. Es eliminar la GPU. Taalas imprime los pesos del modelo (Llama 3.1 8B) directamente en el silicio.

Sin memoria HBM (el cuello de botella clásico).
Sin movimiento de datos (data movement is energy).
Consumo energético ridículo.

La desventaja es obvia: el chip ES el modelo. Si querés actualizar a Llama 4, tenés que fabricar otro chip. Es inmutable. Pero para modelos estables y commodities (como un 8B para tu tostadora o tu auto), es el futuro inevitable.

Probá la demo ahora:

chatjimmy.ai

La inferencia local y soberana necesita esto. Imaginá un pendrive que corre un modelo 70B instantáneo, alimentado por el USB. No estamos lejos.