En 2025, más del 40% del código escrito en empresas ya fue generado con ayuda de IA. GitHub Copilot, Cursor, Claude y ChatGPT se han convertido en compañeros habituales del desarrollador moderno. El argumento de venta es siempre el mismo: más velocidad, más productividad.
Pero la pregunta que muchos equipos empiezan a hacerse en voz alta es otra: ¿ese código es igual de bueno? ¿O estamos acumulando deuda técnica y bugs a una velocidad que antes era imposible?
En este artículo no vamos a especular. Vamos a mirar los datos.
Lo que dicen los estudios: la IA genera más bugs
A lo largo de 2024 y 2025 se publicaron varios estudios independientes que analizan, con datos reales, la calidad del código producido por asistentes de IA. Sus conclusiones apuntan en la misma dirección.
Informe CodeRabbit (diciembre 2025)
CodeRabbit analizó 470 pull requests reales en repositorios de GitHub y encontró que el código generado por IA produce 1,7 veces más issues que el escrito por humanos: 10,83 issues por PR frente a 6,45. El deterioro afecta a todas las categorías: lógica, mantenibilidad, rendimiento y seguridad. En vulnerabilidades de seguridad específicamente, el código IA acumula entre 1,5 y 2 veces más problemas, con debilidades frecuentes en gestión de contraseñas y referencias a objetos.
Informe Veracode GenAI Code Security (2025)
Veracode evaluó más de 100 modelos de lenguaje generando código en Java, JavaScript, Python y C#. El resultado: el 45% del código IA contiene vulnerabilidades de seguridad, frente a un 25-30% estimado para el código humano. En Java, la tasa de fallos superó el 70%. Las vulnerabilidades más comunes fueron Cross-Site Scripting (CWE-80, con un 86% de fallos) e inyección de logs (CWE-117, con un 88% de fallos). El 45% de las muestras incluía vulnerabilidades del OWASP Top 10.
Uplevel y el efecto Copilot
Uplevel Data Labs monitorizó a 800 desarrolladores con y sin acceso a GitHub Copilot. Los equipos con Copilot experimentaron un aumento del 41% en la tasa de bugs mientras su throughput de tareas se mantuvo estable. Es decir: más velocidad, pero también más errores.
GitClear y la deuda técnica silenciosa (2025)
GitClear analizó 211 millones de líneas de código de repositorios de empresas como Google, Microsoft y Meta entre 2020 y 2024. Sus hallazgos son los más preocupantes a largo plazo: la duplicación de código se multiplicó por 8, el refactoring cayó del 25% al menos del 10% de los cambios, y el churn de código nuevo (código revisado antes de dos semanas) casi se duplicó. El código duplicado, según la literatura académica, genera entre un 15% y un 50% más de defectos.
Tabla comparativa: código IA vs código humano
Esta tabla resume los datos clave de los informes citados. Es una instantánea del estado actual, no una condena definitiva a la IA.
| Métrica | Código IA | Código humano | Fuente |
|---|---|---|---|
| Issues por pull request | 10,83 | 6,45 | CodeRabbit, dic. 2025 |
| Tasa de vulnerabilidades de seguridad | 45% | ~25-30% | Veracode, 2025 |
| Aumento de bugs con Copilot | +41% | — | Uplevel, 2024 |
| Código duplicado (2024 vs. 2021) | ×8 | — | GitClear, 2025 |
| Refactoring sobre cambios totales | <10% | ~25% | GitClear, 2025 |
| Fallos OWASP Top 10 | 45% de muestras | — | Veracode, 2025 |
La otra cara: cuando la IA sí mejora la calidad
La objetividad nos obliga a mencionar el estudio que más contrasta con los anteriores. GitHub llevó a cabo un ensayo controlado aleatorizado con 202 desarrolladores experimentados para evaluar la calidad del código producido con Copilot. Sus resultados indican mejoras estadísticamente significativas en legibilidad (+3,62%), fiabilidad (+2,94%), mantenibilidad (+2,47%) y concisión (+4,16%). Los desarrolladores con Copilot tenían un 53,2% más de probabilidad de pasar todos los tests unitarios del estudio.
¿Contradice esto los estudios anteriores? No necesariamente. Un ensayo controlado con tareas definidas y desarrolladores experimentados no es lo mismo que analizar 470 PRs del mundo real o 211 millones de líneas de código de producción. Los contextos son distintos, y ambos tipos de evidencia son válidos.
La conclusión más honesta es esta: la IA puede mejorar la calidad cuando se usa con criterio y supervisión; la degrada cuando se usa sin ellos.
¿Por qué la IA genera más bugs?
Entender el porqué es más útil que repetir los números. Hay tres causas estructurales:
1. La IA predice, no comprende
Los modelos de lenguaje generan código que estadísticamente "parece correcto" basándose en patrones de entrenamiento. No tienen acceso al contexto de negocio, a los casos extremos específicos de tu sistema, ni a las invariantes que un desarrollador con años en el proyecto conoce de memoria. El código puede compilar y parecer razonable, pero fallar silenciosamente en producción.
2. La presión de la velocidad desactiva el pensamiento crítico
Cuando la IA genera 200 líneas en cinco segundos, el desarrollador tiende a revisarlas con menos atención que si las hubiera escrito él mismo. El tiempo ahorrado en generación no siempre se invierte en revisión. El resultado es código que nadie leyó de verdad antes de llegar al repositorio.
3. Copiar en lugar de refactorizar
La IA resuelve el problema inmediato, no el problema estructural. Añade una función nueva sin eliminar la duplicada. No propone reorganizar el módulo, sino extenderlo. A escala, esto crea una acumulación de código redundante que el informe de GitClear documenta con claridad.
El rol del QA: más necesario que nunca
Si hay una conclusión clara en todos estos informes es que la proliferación del código IA no reduce la necesidad de QA. La aumenta.
El 60% del código generado por IA requiere algún tipo de intervención antes de ser apto para producción. Mientras tanto, el 75% de las organizaciones reconoce que las pruebas automatizadas con IA son una prioridad estratégica para 2025-2026, pero solo el 16% las ha implementado de forma efectiva. Hay una brecha enorme entre la velocidad a la que se genera código y la capacidad de los equipos para validarlo.
El QA en este contexto no es el que frena la entrega. Es el que hace posible que la velocidad de la IA no se convierta en deuda que paraliza el sistema meses después. Hay tres áreas en las que el papel del QA es especialmente crítico:
- Revisión de seguridad del código generado. Las vulnerabilidades OWASP más comunes (XSS, inyección SQL, SSRF) aparecen con frecuencia en código IA. Un proceso sistemático de SAST y revisión de código es la primera línea de defensa.
- Tests de regresión ante cambios rápidos. El aumento del churn (código revisado antes de dos semanas) hace que la cobertura de tests sea especialmente valiosa. Sin ella, cada "mejora" rápida de la IA puede romper funcionalidades que nadie está mirando.
- Validación del comportamiento de negocio. La IA no conoce las reglas de tu dominio. El QA sí. Los casos de prueba que reflejan las reglas de negocio reales son el complemento esencial de un modelo que solo puede inferir lo que debería hacer.
Conclusión: la IA acelera, el QA garantiza
El código generado por IA no es malo por definición. Pero los datos muestran consistentemente que, en condiciones reales de producción, genera más issues, más vulnerabilidades y más deuda técnica que el código escrito por humanos con atención plena.
Esto no es un argumento contra la IA. Es un argumento a favor de tratarla como lo que es: una herramienta muy potente que amplifica tanto las buenas prácticas como las malas. Con revisión, con tests y con criterio, puede ser un multiplicador genuino de productividad. Sin ellos, es una máquina de producir deuda técnica a velocidad industrial.
Para los equipos de QA, el mensaje es claro: vuestra función no ha quedado obsoleta. Ha quedado más expuesta. El volumen de código que necesita validación no para de crecer, y las organizaciones que lo entiendan antes tendrán una ventaja real.
Fuentes
- CodeRabbit — State of AI vs Human Code Generation (diciembre 2025)
- Veracode — 2025 GenAI Code Security Report
- GitClear — AI Copilot Code Quality 2025 Research
- GitHub Blog — Does GitHub Copilot improve code quality? (2024)
- The Register — AI-authored code needs more attention, contains worse bugs (2025)
- GitClear — Coding on Copilot: Downward Pressure on Code Quality
Preguntas frecuentes
¿El código generado por IA tiene más bugs que el código humano?
Según los estudios más recientes, sí. CodeRabbit (diciembre 2025) encontró que el código IA produce 1,7 veces más issues por pull request que el código humano (10,83 frente a 6,45). Veracode (2025) detectó que el 45% del código IA contiene vulnerabilidades de seguridad, frente al 25-30% estimado para el código humano.
¿Por qué la IA genera más errores en el código?
Hay tres causas principales: la IA predice patrones estadísticos sin comprender el contexto de negocio; la velocidad de generación reduce la revisión crítica del desarrollador; y la IA tiende a añadir código nuevo sin refactorizar, acumulando duplicaciones y deuda técnica.
¿La IA puede mejorar la calidad del código en algún contexto?
Sí. Un estudio controlado de GitHub con 202 desarrolladores experimentados mostró mejoras estadísticamente significativas en legibilidad (+3,62%), fiabilidad (+2,94%) y mantenibilidad (+2,47%) con Copilot. La diferencia clave es el nivel de supervisión: con revisión adecuada, la IA puede ser un multiplicador de calidad.
¿El auge del código IA hace que el QA sea menos necesario?
Al contrario. El 60% del código generado por IA requiere algún tipo de intervención antes de producción. El volumen de código a validar crece más rápido que la capacidad de los equipos para hacerlo. El QA no ha quedado obsoleto; su función ha quedado más expuesta y más crítica que nunca.
¿Qué tipo de vulnerabilidades son más comunes en el código IA?
Según Veracode (2025), las vulnerabilidades más frecuentes son Cross-Site Scripting (CWE-80, con un 86% de fallos), inyección de logs (CWE-117, 88% de fallos) y vulnerabilidades del OWASP Top 10 en general, presentes en el 45% de las muestras de código IA evaluadas.
¿Quieres entrar al sector?
Aprende QA desde cero, con formación práctica y orientada al mercado español.