Juan Huguet García es cofundador y CEO de anyformat. Doctor en Física Experimental por la Universidad Pierre y Marie Curie de París, ha combinado una sólida formación científica con una extensa trayectoria en inteligencia artificial y ciencia de datos. Ha trabajado como científico de datos en empresas como IBM, Clarity AI y Latency, donde ha liderado proyectos complejos de IA en áreas como el procesamiento de lenguaje natural, el aprendizaje automático y la extracción de información no estructurada.
Ha sido profesor en la Universidad de las Islas Baleares, donde impartió ciencia de datos e infraestructura a estudiantes de máster. Durante su carrera investigadora, recibió el Graduate Student Award del E-MRS (European Materials Research Society) por su trabajo en nanomateriales.
1. ¿Cómo surgió la idea de crear una herramienta para estructurar datos procedentes de cualquier formato de archivo?
La idea nació de mi experiencia durante la carrera como ingeniero de IA, donde viví de primera mano la frustración que supone para las empresas tener montañas de información valiosa atrapada en documentos que no pueden procesar de manera eficiente.
Durante mi etapa como científico de datos, vi cómo equipos altamente cualificados perdían horas y horas trabajando manual de extracción de datos de PDF, contratos, facturas… Era absurdo. Teníamos la tecnología para enviar cohetes al espacio, pero las empresas todavía dependían de personas copiando y pegando datos de un documento a un Excel.
Con la explosión de la IA generativa, vi que finalmente teníamos las herramientas para resolver este problema de forma elegante. Junto a mi cofundador Diego Pérez-Sastre, que compartía esta visión, decidimos crear anyformat con un objetivo claro: que cualquier organización pueda entender sus documentos con la inteligencia de un humano, la velocidad de una máquina y la seguridad que exige la regulación actual.
2. En las FAQ de su web se explica que puede trabajar con más de cien formatos, entre ellos PDF, Word, Excel, PowerPoint, HTML, Markdown, XML y JSON. ¿También con imágenes, vídeos, audios, dibujos y planos?
Efectivamente, nuestra plataforma puede procesar una amplia variedad de formatos porque entendemos que la realidad de las empresas es diversa. Los documentos no vienen en un solo formato: un mismo proyecto puede incluir contratos en PDF, presupuestos en Excel, correos electrónicos, imágenes de productos…
Los formatos más habituales con los que trabajamos son los documentos ofimáticos (PDF, Word, Excel, PowerPoint) pero también procesamos imágenes para extraer texto y datos visuales, archivos de datos estructurados como JSON, XML o CSV, y formatos especializados según el sector del cliente.
Lo importante no es tanto la cantidad de formatos, sino la calidad de la extracción. Nuestra tecnología de OCR agéntico permite entender el contexto y la estructura de los documentos, no sólo leer caracteres. Esto significa que podemos extraer información de un archivo escaneado con la misma precisión que de un PDF nativo digital.
3. ¿La idea es que una persona que no sepa programar pueda estructurar datos, automatizar procesos y analizar patrones? ¿Qué estructura mental debe tener esa persona para crear una base o esquema de estructura de datos correcto y útil?
Exactamente. Uno de los principios fundacionales de anyformat es hacer fácil la automatización con IA. No tiene sentido que sólo los ingenieros puedan trabajar con estas tecnologías cuando quienes mejor conocen el negocio son los equipos operativos.
Por lo que respecta a la estructura mental necesaria, no se trata de pensar como un programador, sino de tener claridad sobre dos cosas. Primera: ¿qué necesito saber? ¿Cuáles son las preguntas que quiero responder con estos datos? Por ejemplo, quiero saber qué clientes tienen contratos que vencen en los próximos tres meses, o necesito comparar los precios de todos los proveedores para un mismo producto. Segunda: ¿dónde se encuentra esta información? En qué documentos, en qué parte del documento (cabecera, tablas, cuerpo del texto…).
El concepto que utilizamos es el de esquema de datos o plantilla de extracción. El usuario define qué campos desea extraer (nombre del cliente, fecha, importe) y nuestra IA se encarga de encontrar y extraer esta información de cada documento. Es como enseñar a un asistente muy inteligente lo que debe buscar, sin tener que explicarle cómo hacerlo técnicamente.
La clave es empezar simple e iterar. Recomendamos a nuestros clientes que empiecen con un caso de uso concreto, validen los resultados y después expandan.
4. En un artículo donde les mencionaban se hablaba del efecto del Diógenes Digital, refiriéndose al exceso de información que tenemos en nuestros dispositivos y que guardan las empresas por si acaso. ¿Se debe guardar toda la información? ¿Tiene algún consejo para ordenar la información que generamos, teniendo en cuenta que dentro de una empresa trabaja gente diversa en la que cada uno tiene un esquema mental propio de clasificación? Y sobre las versiones de los archivos, ¿qué opinión tiene?
El Diógenes Digital es una analogía muy acertada. Las empresas acumulan terabytes de información por si acaso, pero la paradoja es que cuantos más datos guardas sin estructura, menos útiles son. Es como tener un almacén lleno de cajas sin etiquetar: técnicamente lo tienes todo, pero apenas encuentras nada.
Mi consejo es aplicar el principio de valor por acceso: no guardes información, guarda conocimiento accesible. Esto implica, en primer lugar, definir una taxonomía compartida. Antes de hablar de herramientas, la empresa necesita acordar cómo clasifica la información. No hace falta que sea perfecta, pero sí consistente. Un contrato debe llamarse contrato para todos, no acuerdo para unos y convenio para otros.
En segundo lugar, automatizar el etiquetado. Aquí es donde entra tecnología como la nuestra. En lugar de depender de que cada persona clasifique manualmente (cosa que no hará o hará mal), dejamos que la IA identifique y etiquete automáticamente.
Acerca de las versiones, es crítico tener un sistema de control de versiones, especialmente para documentos que evolucionan como contratos, políticas o procedimientos. Mi consejo es adoptar herramientas que gestionen esto automáticamente y nunca confiar en el clásico documento_v2_final_DEFINITIVO_v3.docx.
Finalmente, es necesaria una política de retención. No todo debe guardarse para siempre. Es necesario definir cuánto tiempo se conserva cada tipo de documento según requisitos legales y valor de negocio, y automatizar el archivado y la eliminación.
5. Cuando una empresa se plantea incorporar inteligencia artificial con automatizaciones en sus procesos (más allá de utilizarla para generar redacciones por redes sociales, preparar textos para responder correos electrónicos, incorporar un chatbot en su página web, tener un asistente para acompañar en la programación o traducir textos), ¿qué pasos debe tener en cuenta? ¿Y qué puede ser crítico para que la adopción de la inteligencia artificial se haga de manera metódica y ordenada, enseñando a las personas de cada departamento cómo utilizarla en cada caso y compartir datos con una gobernanza común?
Esta es una pregunta clave. La mayoría de empresas comienzan con lo que yo llamo la IA fácil: generación de textos, chatbots genéricos, asistentes de traducción… Está bien como primer paso, pero el verdadero valor transformador aparece cuando aplicas la inteligencia artificial a los procesos core del negocio, donde realmente se juega la partida.
Lo primero que recomiendo es identificar procesos de alto impacto y alta fricción. Busca aquellas tareas que consumen mucho tiempo, que son repetitivas y tienen valor estratégico. El procesamiento documental suele ser un candidato perfecto porque toca transversalmente muchas áreas (finanzas, legal, operaciones, compliance…) y es donde la IA puede generar un retorno inmediato y visible.
Una vez identificado el proceso, el segundo consejo es empezar con un piloto acotado. No intentes transformar toda la empresa de repente. Elige un departamento, un tipo de documento, un flujo concreto. Demuestra valor con resultados tangibles, aprende de lo que funciona y de lo que no, y después escala. Las transformaciones demasiado ambiciosas desde el principio suelen morir de inanición antes de dar sus frutos.
Y aquí viene un punto que muchos olvidan: involucra a los usuarios finales desde el primer día. La tecnología más avanzada del mundo fracasa si las personas que deben utilizarlo no confían o no entienden cómo funciona. Hazles partícipes del diseño, escucha sus preocupaciones, incorpora su feedback. Son ellos quienes harán que el proyecto viva o muera en el día a día.
En cuanto a la adopción metódica y la gobernanza, existen elementos que considero críticos. El primero es la esponsorización ejecutiva. Sin el claro apoyo de la dirección, los proyectos de IA acaban muriendo de política interna o de falta de recursos. Es necesario alguien con autoridad que ampare el proyecto y le dé prioridad.
También es fundamental definir claramente los roles: quién puede acceder a qué datos, quién valida los resultados que genera la IA, quién se encarga de mantener y mejorar sus modelos. Sin esa claridad, aparecen vacíos de responsabilidad que acaban generando problemas.
La formación es otro pilar. No es suficiente un curso inicial de dos horas. Es necesario un acompañamiento continuado y una actualización constante, porque esta tecnología evoluciona muy rápidamente. Lo que hoy es punta de lansa, mañana puede ser obsoleto.
Y por último, la gobernanza de datos. Esto es absolutamente fundamental. Es necesario establecer políticas claras sobre calidad de datos, privacidad, seguridad y cumplimiento normativo (pensamos en el GDPR o el nuevo AI Act europeo). En anyformat ponemos mucho énfasis en la soberanía de los datos precisamente por eso: las empresas necesitan saber que mantienen el control sobre su información en todo momento.
6. Para incorporar su tecnología dentro de una empresa, ¿cuáles son los perfiles profesionales que la alimentan de datos?
La gracia de nuestro enfoque es que no requerimos perfiles técnicos especializados para alimentar al sistema. Los perfiles que típicamente trabajan con anyformat son equipos de operaciones que gestionan facturas, albaranes y pedidos; equipos financieros que trabajan con informes, extractos bancarios y presupuestos; y equipos de recursos humanos que gestionan CV, contratos laborales y evaluaciones.
En definitiva, cualquier profesional que trabaje con documentos como parte de su trabajo diario puede alimentarse y beneficiarse del sistema. No necesitan saber programar ni tener formación técnica especializada.
Lo que sí se recomienda es tener un champion interno, alguien que entienda bien el proceso de negocio y pueda definir correctamente los esquemas de extracción y validar que los resultados tienen sentido. Esa persona suele ser alguien con experiencia en el proceso, no necesariamente un técnico.
7. ¿Y quién debe encargarse de auditar los datos, mantenerlos limpios, ordenados, actualizados, y de añadir nuevas estructuras?
Esta responsabilidad debería recaer en lo que llamo el propietario de los datos o data owner de cada área, que no es necesariamente un técnico sino el responsable de negocio que mejor conoce estos datos.
Nuestra recomendación es una estructura de tres niveles. Primero, los usuarios operativos, que utilizan el sistema a diario, detectan y reportan anomalías, y proponen mejoras basadas en su experiencia. Segundo, los propietarios de datos por área, responsables de la calidad y coherencia de los datos de su ámbito, que validan los esquemas de extracción, revisan muestras periódicamente y aprueban cambios en las estructuras. Tercero, el equipo central de datos o IT, que coordina la gobernanza global, gestiona la infraestructura y asegura el cumplimiento de políticas de seguridad y privacidad.
La clave está en no centralizar todo en IT (que no conoce el negocio) ni dejarlo todo a los usuarios (que no tienen visión global). Es necesario un equilibrio.
En cuanto al mantenimiento y actualización, nuestra plataforma facilita mucho esta tarea porque permite iterar sobre los esquemas de extracción sin necesidad de programar. Si aparece un nuevo tipo de documento o cambia el formato de los datos a extraer, el propietario de datos puede ajustar el esquema directamente.
8. Cuando ya tienen los datos estructurados, ¿cuál es la siguiente pasa por sacar provecho? ¿Cómo lo hacían antes?
Una vez que los datos están estructurados, se abren múltiples posibilidades. Desde el análisis y la visualización (conectar los datos con herramientas de Business Intelligence como Power BI, Tableau o Looker para crear dashboards e informes que permitan entender patrones, tendencias y anomalías) hasta la automatización de decisiones, configurando reglas automáticas basadas en los datos extraídos. Por ejemplo: si una factura supera X importe y el proveedor es nuevo, requiere aprobación adicional.
¿Cómo lo hacían antes? Básicamente, con mucho trabajo manual y con mucha información que simplemente no se explotaba. El proceso típico era: una persona abre un documento, lee, interpreta, copia los datos relevantes en un Excel o sistema, y repite. Esto era lento, propenso a errores, y hacía inviable procesar grandes volúmenes.
El cambio de paradigma es pasar de procesar documentos a explotar información. Antes, el objetivo era tramitar el documento; ahora, el objetivo es extraer conocimiento que genere valor.
9. ¿Cuántas personas trabajadoras tiene la empresa más pequeña que ha incorporado su tecnología?
Hemos trabajado con empresas de tamaños muy diversos. Lo que hemos aprendido es que el tamaño de la empresa no es el factor determinante. Lo que importa es el volumen y complejidad de los documentos que gestionan, y el valor que tiene para ellos automatizar este proceso. Una pequeña empresa con un alto volumen documental puede beneficiarse tanto o más que una gran corporación.
Dicho esto, es cierto que nuestro foco comercial principal son las grandes corporaciones y empresas mid-market, porque es donde la escala del problema justifica más claramente la inversión y donde podemos generar un mayor impacto transformador. Clientes como el Grupo L’Oréal España o el Grupo IAG son ejemplos de organizaciones con necesidades documentales complejas y de alta demanda donde nuestra tecnología brilla especialmente.
10. ¿Nos puede decir una película que enseñe tecnología con la que trabaja y que pueda servir de inspiración?
Recomendaría Her (2013) de Spike Jonze. Aunque es una película sobre relaciones humanas más que sobre tecnología empresarial, ilustra muy bien el concepto de inteligencia artificial que entiende el contexto, el lenguaje natural y las necesidades del usuario.
Lo que me gusta de esta película es que muestra una IA que no es fría ni robótica, sino que se adapta a la persona y le ayuda a ser más productiva ya gestionar mejor su información (el protagonista, de hecho, trabaja dictando cartas que la IA transcribe y mejora). Es una visión humanista de la tecnología, que es la que nosotros tenemos como empresa.
11. ¿Puede recomendarnos un libro para aprender más sobre datos e inteligencia artificial aplicados al mundo de los negocios?
Para aprender sobre inteligencia artificial aplicada al mundo de los negocios, recomendaría Prediction Machines: The Simple Economics of Artificial Intelligence de Ajay Agrawal, Joshua Gans y Avi Goldfarb. Lo que me gusta de este libro es que los autores, que son economistas, explican la IA de forma muy pragmática: como una tecnología que abarata las predicciones. Este framework te permite pensar claramente sobre dónde tiene sentido invertir en IA y cuál será el retorno, sin perderte en la tecnología.
Para quien quiera entender mejor la IA generativa moderna, recomendaría complementar con el curso Generative AI for Everyone de Andrew Ng. Es accesible, sin código y muy enfocado a aplicaciones prácticas de negocio. Andrew Ng tiene un don especial para hacer comprensibles incluso los conceptos más complejos.
Y para los más curiosos que quieran estar al día de las últimas tendencias en agentes y LLM, el blog de Anthropic es excelente. Publica papeles y artículos sobre Constitutional AI, tool use y arquitecturas modernas de forma accesible. También recomendaría seguir a Andrej Karpathy, porque en este campo la tecnología evoluciona tan rápido que los libros quedan obsoletos en meses. La combinación de principios fundamentales de los libros con la comunidad online es su mejor enfoque.
