Desde los primeros experimentos con la conducción autónoma, la lógica parecía clara: cuantos más sensores tenga un coche, mejor podrá entender su entorno y tomar decisiones seguras. Sin embargo, Tesla ha apostado por una estrategia radicalmente diferente con su Full Self-Driving (FSD): eliminar los costosos sensores LIDAR y radar y confiar exclusivamente en la visión por computadora. A primera vista, esto puede parecer un paso atrás, pero en la práctica, los resultados sugieren lo contrario.
Un modelo basado en la percepción y la predicción
El enfoque tradicional de los vehículos autónomos se basa en crear un modelo preciso del entorno, midiendo distancias, velocidades y obstáculos con sensores avanzados. LIDAR y radar, por ejemplo, permiten obtener una visión tridimensional extremadamente detallada del entorno, lo que, en teoría, debería mejorar la seguridad y la precisión.
Sin embargo, Tesla ha demostrado que, gracias al aprendizaje profundo (deep learning), los sistemas de visión por computadora pueden hacer estas mismas mediciones con un margen de error insignificante. Un coche que cambia de carril no necesita saber si otro vehículo está exactamente a 95 o 100 pies de distancia; lo importante es determinar si hay tiempo suficiente para completar la maniobra.
Pero el verdadero punto fuerte del aprendizaje profundo no es solo la percepción del presente, sino la predicción del futuro. Un sistema avanzado de visión puede no solo identificar peatones, ciclistas y coches, sino también anticipar su comportamiento. ¿Ese peatón está a punto de cruzar la calle o solo está esperando? ¿El coche de enfrente va a frenar o seguir su marcha? Las expresiones faciales, la dirección de la mirada o la postura corporal son pistas que solo una cámara puede captar, mientras que sensores como LIDAR o radar simplemente registran puntos en el espacio sin contexto adicional.
La clave: datos masivos y aprendizaje profundo
Para entrenar una IA en la conducción autónoma se necesita una cantidad descomunal de datos. Aquí es donde la visión por computadora gana la partida. Las cámaras son baratas y pueden instalarse en millones de vehículos, generando un flujo continuo de datos con los que mejorar el sistema. En cambio, el uso masivo de LIDAR y radar haría que la recopilación de información fuera excesivamente costosa y compleja, ralentizando la evolución del modelo de conducción.
Además, incluso si un coche contara con múltiples sensores avanzados, necesitaría de todos modos un sistema de visión capaz de operar por sí solo. ¿Qué ocurre si el LIDAR falla por un golpe o el radar sufre interferencias? El vehículo debe ser capaz de conducir con seguridad usando únicamente las cámaras.
El contraargumento más común es que, aunque la visión por sí sola sea suficiente, los sensores adicionales podrían aumentar la seguridad. Pero, como argumentan los defensores de este enfoque, si un sistema de visión por computadora es capaz de igualar o superar el rendimiento de un conductor humano (que solo usa los ojos), la necesidad de sensores adicionales se vuelve discutible.
Tesla vs. el resto: ¿quién lleva razón?
La comparación más evidente es entre Tesla y Waymo. Waymo, que apuesta por una conducción autónoma basada en LIDAR y sensores de alta precisión, ha mostrado progresos, pero su sistema aún es caro y difícil de escalar. Tesla, en cambio, ha desplegado su FSD en cientos de miles de vehículos de clientes, mejorando constantemente gracias al aprendizaje masivo.
Para los escépticos, la invitación es clara: prueben la última versión del FSD y comparen con otros sistemas. La experiencia de conducción con visión por computadora ha alcanzado un nivel tan suave, natural y seguro, que incluso conductores acostumbrados a los sistemas tradicionales se sorprenden de su capacidad de anticipación y fluidez.
Tesla ha demostrado que, aunque parezca contradictorio, a veces una solución más simple y barata puede ser más eficaz. Y si los humanos conducimos con la vista como único sensor, ¿por qué las máquinas no podrían hacer lo mismo?