Escribo pruebas para vivir. Bueno, en parte para vivir. Y el secreto sucio de la profesión de pruebas es que muchos de nosotros pasamos más tiempo manteniendo pruebas antiguas que escribiendo nuevas. Se renombra un botón, cambia un selector, se rediseña una página, y de repente 40 pruebas fallan, ninguna por errores reales. Simplemente porque la interfaz de usuario se movió.
Así que cuando las herramientas de pruebas con IA prometieron “pruebas auto-curativas”, fui escéptico pero desesperadamente esperanzado. Como un bombero agotado que escucha sobre un edificio que se apaga por sí mismo.
Resulta que algunas de ellas realmente cumplen.
Donde la Prueba con IA Realmente Funciona
Generación de pruebas con Copilot es la característica de prueba con IA más útil que he encontrado. Escribe una función, cambia al archivo de prueba, y Copilot sugiere casos de prueba, incluyendo casos extremos que no se me habrían ocurrido.
La semana pasada sugirió una prueba para la entrada de números negativos en una función que no había considerado. La función se bloqueaba con los números negativos. Copilot encontró un error real escribiendo una prueba que yo no habría escrito. Eso es… bastante genial.
El problema: Copilot genera pruebas que pasan, pero “pasa” y “prueba la cosa correcta” son diferentes. Tiende a probar la implementación en lugar del comportamiento, así que si la implementación es incorrecta pero consistente, Copilot escribirá pruebas que validan el comportamiento incorrecto. Aún necesitas leer las pruebas generadas y preguntar “¿esta prueba verifica lo que realmente me importa?”
Pruebas visuales con Applitools resolvieron un problema que me hacía temer los cambios en el frontend. Las pruebas de regresión visual solían significar comparación píxel a píxel, lo que fallaba constantemente debido a diferencias de suavizado, actualizaciones de motores de renderizado y contenido dinámico como marcas de tiempo o anuncios.
Applitools utiliza IA para comparar capturas de pantalla como lo haría un humano, ignorando diferencias irrelevantes mientras atrapa las significativas. ¿Una fecha cambiando? Ignorado. ¿Un botón moviéndose 50 píxeles? Marcado. ¿Un cambio en el color del texto? Marcado. ¿Contenido dinámico de anuncios? Ignorado.
Pasamos de más de 30 fallos visuales falsos por lanzamiento a unos 2. Mi equipo de QA dejó de temer las revisiones de pruebas visuales.
Pruebas auto-curativas con Testim son lo más cercano a la magia. La IA rastrea múltiples atributos de cada elemento de la interfaz de usuario: su texto, posición, clase CSS, elementos circundantes y más. Cuando un atributo cambia (como una clase CSS renombrada), la IA utiliza los otros atributos para seguir encontrando el elemento.
Antes de Testim: un refactorizado de CSS rompió 120 pruebas. Después de Testim: el mismo tipo de refactorizado rompió 3 pruebas (las que el elemento fue genuinamente eliminado, no solo renombrado). Eso es una reducción del 97.5% en fallos falsos. Las horas ahorradas en el mantenimiento de pruebas son significativas.
Las Herramientas que Me Desalentaron
Agentes de prueba totalmente autónomos — aquellos que prometen “simplemente apúntalos a tu aplicación y probarán todo” — aún no están ahí. Probé dos herramientas de prueba autónomas diferentes. Encontraron algunos problemas básicos de funcionalidad pero se perdieron casos extremos, escribieron pruebas que eran frágiles y generaron falsos positivos que tomaron más tiempo en investigar que los problemas que encontraron.
La tecnología llegará allí. Simplemente no está ahí hoy.
Pruebas de integración generadas por IA son mediocres. Las pruebas unitarias (que prueban funciones individuales) son adecuadas para la generación de IA porque el alcance es pequeño y las expectativas son claras. Las pruebas de integración requieren entender cómo interactúan los componentes, cuál es el comportamiento esperado a nivel del sistema y dónde se encuentran los modos de fallo interesantes. La IA aún no tiene suficiente contexto para esto.
Mi Actual Stack de Pruebas
Pruebas unitarias: Copilot genera borradores, yo reviso y ajusto. La cobertura pasó del 45% al 78% sin agregar tiempo dedicado a las pruebas. La calidad de las pruebas individuales no siempre es perfecta, pero el volumen compensa.
Pruebas E2E: Testim para los principales recorridos de usuario. La auto-curación mantiene bajo el mantenimiento. Tenemos más de 200 pruebas E2E que se ejecutan en CI y realmente se mantienen en verde.
Pruebas visuales: Applitools para páginas y componentes clave. Atrapa regresiones de CSS que las pruebas funcionales no detectan en absoluto.
Pruebas manuales: Aún son insustituibles para pruebas exploratorias, evaluación de UX, y las preguntas de “¿esto se siente bien?” que ninguna IA puede responder todavía.
Lo que Les Digo a los Equipos que Comienzan
Comienza con Copilot para pruebas unitarias. Es la inversión en pruebas con IA de menor esfuerzo y mayor retorno. Ya estás escribiendo código en un IDE, las pruebas vienen prácticamente gratis.
Luego agrega Applitools si tienes una aplicación con mucho contenido visual. La configuración toma un día, y la reducción en fallos visuales falsos es inmediata.
Considera Testim o similar si el mantenimiento de pruebas E2E está consumiendo el tiempo de tu equipo. El valor es proporcional al tamaño de tu suite de pruebas: si tienes 20 pruebas E2E, el mantenimiento manual es manejable. Si tienes más de 200, la auto-curación es un salvavidas.
No compres herramientas de prueba autónomas todavía. Dales otro año.
La Verdad Incómoda
Las herramientas de prueba con IA hacen que probar sea más rápido y menos doloroso. No hacen que las pruebas sean reflexivas. La parte difícil de probar — decidir qué probar, entender los riesgos, priorizar los casos de prueba que realmente importan — sigue siendo un trabajo completamente humano.
Una suite de pruebas con un 95% de cobertura de código proveniente de pruebas generadas por IA aún puede perder el error que derriba la producción, porque la cobertura de código mide lo que se ejecutó, no lo que se verificó. La IA escribió pruebas que verificaban valores de retorno pero no comprobaban efectos secundarios. Verificó la ruta feliz pero omitió el manejo de errores.
Usa la IA para manejar el trabajo tedioso. Usa tu cerebro para el trabajo importante. Esa es la combinación que realmente funciona.
🕒 Published: