NEO
Tendencias
·Cannes Lions 2026 abre convocatoria a shortlists·IA generativa supera 40% de adopcion en agencias MX·Inversion publicitaria digital crece 18% en Q1 2026·Effie Mexico anuncia nuevas categorias para edicion 2026·WPP reporta resultados en Latam·Meta lanza nuevas APIs para retail media·Cannes Lions 2026 abre convocatoria a shortlists·IA generativa supera 40% de adopcion en agencias MX·Inversion publicitaria digital crece 18% en Q1 2026·Effie Mexico anuncia nuevas categorias para edicion 2026·WPP reporta resultados en Latam·Meta lanza nuevas APIs para retail media
Marketing

Recolectar datos de entrenamiento para robots es un trabajo sucio y poco glamuroso. Algunos laboratorios de IA ya están pagando a XDOF para hacerlo

Redaccion NEO·17/6/2026
Compartir:LinkedInXWhatsAppFacebook
Recolectar datos de entrenamiento para robots es un trabajo sucio y poco glamuroso. Algunos laboratorios de IA ya están pagando a XDOF para hacerlo

Hace dos semanas, OpenAI anunció que relanzaría el programa de robótica que cerró en 2021, la última señal de que los laboratorios de IA más grandes están compitiendo por enseñar a las máquinas a operar en el mundo físico. Pero construir robots capaces requiere algo que la industria de IA aún no tiene, que es los datos de entrenamiento para igualar los utilizados para los modelos de lenguaje.

Esa brecha está creando un nuevo tipo de negocio de infraestructura. A diferencia de los LLMs que fueron entrenados en un vasto mar de textos disponibles públicamente, los robots necesitan datos que capturen la interacción física, y ese tipo de datos apenas existe. Los videos de YouTube y las imágenes capturadas por trabajadores independientes son de baja fidelidad y difíciles de reconciliar con el mundo físico.

XDOF (pronunciado "ecks-doff"), que hoy emerge de la clandestinidad, está apostando a que el próximo gran cuello de botella en la IA no son los modelos o chips, sino el círculo de retroalimentación de datos necesario para enseñar a los robots cómo interactuar con el mundo físico.

La startup tiene como objetivo construir las tuberías de datos, herramientas de recolección y sistemas de anotación que los laboratorios avanzados y las empresas de robótica no pueden construir fácilmente por sí mismas, y ha recaudado 70 millones de dólares de Thrive Capital, Spark Capital, a16z, Lux y WndrCo para hacerlo. Philippe Wu, cofundador y CEO, dice que XDOF, que tiene aproximadamente 60 empleados, ya está trabajando con 20 clientes, incluidos varios laboratorios de IA avanzados, pero no puede nombrarlos.

"Todos los principales laboratorios están tratando de avanzar en robótica", dijo Wu. "Ya hemos visto algunas de las caídas de quedarnos un poco atrás en la carrera de modelos de lenguaje... no quieres estar en esta situación en la que persigues esta tecnología demasiado tarde, y todos están en este barco donde la IA física es la próxima frontera."

Wu se encontró con este problema personalmente como estudiante de doctorado en UC Berkeley. Su enfoque era permitir que los robots aprendieran habilidades a partir de conjuntos de datos a gran escala. Solo había un problema.

"No teníamos datos a gran escala para trabajar", le dijo a TechCrunch. "Había este problema del huevo y la gallina: primero necesitábamos realmente recolectar datos antes de que pudiéramos siquiera preguntar cómo entrenar un modelo de base para robótica."

Wu y su futuro cofundador de XDOF y CTO, Fred Shentu, trabajaron en un proyecto llamado GELLO, un sistema de teleoperación de bajo costo que permite a un operador humano controlar un brazo robótico para generar datos de entrenamiento. "Terminé convirtiéndose en un artículo muy influyente en robótica, porque mucha gente tenía necesidades y cuellos de botella similares, y muchos comenzaron a aprovechar este tipo de dispositivo para la recolección de datos", dijo Wu.

Al detectar la oportunidad, Wu, Shentu, y el tercer cofundador y Director de Operaciones Nemo Jin lanzaron XDOF en octubre de 2024 para proporcionar un ecosistema de datos para las empresas que persiguen modelos de robótica. Consciente de que la provisión de datos por sí sola puede ser un negocio sin salida, la empresa también se enfoca en la limpieza de datos, herramientas y anotaciones, creando un ciclo de retroalimentación auto-reforzante para los entrenadores de robots.

Como punto de partida, la empresa está asociándose con el laboratorio de investigación de IA de UC Berkeley para liberar lo que cree que es la colección más grande de datos de entrenamiento de robots de alta calidad.

Sigue leyendo