Evaluando la confianza en IA

La confianza define completamente como nos relacionamos y no siempre responde a la evidencia. Esto ocurre en las relaciones entre humanos, pero también cuando nos relacionamos con cualquier herramienta tenga o no inteligencia artificial, pero en este caso aparecen circunstancias más que significativas que requieren una atención especial y nuevas metodologías para su evaluación.

Diferencias entre confianza en la IA y sistemas no inteligentes

Los sistemas que no hacen uso de inteligencia artificial pueden tener fallos, ya sea por deficiencias en su programación, por algún problema con su hardware, por un mal uso o mantenimiento. Este mal uso típicamente se deberá a problemas de usabilidad, un acto negligente o por falta de formación.

Sin embargo, los sistemas que emplean IA pueden equivocarse, sin que esto implique necesariamente la existencia de fallo en el sistema. Este hecho supone un importantísimo cambio de paradigma donde el humano debe entender que la herramienta que está usando puede equivocarse y que no van a existir señales claras de que esté rota, puesto que no tiene porqué estarlo. Simplemente podría estar equivocada, como podría estarlo un compañero humano o él mismo.

De igual manera, esa herramienta puede estar observándole y aprendiendo de él. Mientras le observa, la inteligencia artificial podría impedir que su usuario cometiera un acto negligente o por el contrario aprender como correctas acciones inadecuadas.

En este contexto, la manera en la que se desarrolla la confianza entre el humano y la herramienta da un salto cuántico, que afecta a múltiples frentes como el legal, el ético, el técnico o el emocional. En casos de uso que afecten a sectores críticos, como el aeroespacial, esta cuestión cobra especial relevancia.

Hablamos de escenarios donde aceptar o rechazar las recomendaciones de una IA pueden suponer consecuencias de muy alto impacto a lo que podría sumarse en muchos casos, la imposibilidad de que el humano cuente con tiempo para analizar en profundidad las recomendaciones proporcionadas por la IA.

¿Te has planteado estas preguntas sobre la confianza en IA?

–          ¿Es correcto que una IA actúe cuando considera que el humano va a cometer un error catastrófico, impidiéndole activamente que realice una acción, sin posibilidad de considerar que el humano insiste en realizarla? ¿Esta respuesta sería para algunos casos o para todos los casos?

–          ¿Qué ocurre si una IA proporciona una recomendación, el humano la sigue y se produce un fallo catastrófico? ¿Y si el fallo catastrófico se produce por no seguirla?

–          ¿Cómo evaluar si un sistema con IA está fallando, lo que vendría a ser un defecto de fabricación, o simplemente se ha equivocado?

–          Si una IA aprende de un humano, ¿se le puede hacer responsable a este de sus equivocaciones? ¿Serviría como forma de evaluar su desempeño? ¿No hará esto que el humano se sienta cohibido?

Se trata de preguntas elementales que todos nos planteamos o nos vamos a plantear cuando nos toque trabajar con una IA. Algunos países ya han dado una respuesta legal a estas preguntas, pero el debate no está ni mucho menos cerrado. Es más muchas personas ni siquiera saben de la existencia de legislación a este respecto.

¿Por qué es necesario evaluar la confianza en la Inteligencia Artificial?

Cualquier estudio de usabilidad, experiencia de usuario o interacción va a considerar en uno de sus primeros términos quién o quienes van a ser los usuarios. Una cuestión básica para catalogar a los usuarios es su conocimiento y experiencia respecto al producto que se está usando.

Por ejemplo, en un test de usabilidad tipo benchmarking (medidas de eficacia y eficiencia), no tiene sentido mezclar los resultados obtenidos por usuarios experimentados con los que no lo están. Realmente no tendría sentido en prácticamente cualquier tipo de prueba de usabilidad, pero por claridad para los que no son afines a pruebas con usuarios, dejo este caso como el más evidente.

De manera análoga no se pueden obviar las diferencias de uso que existirán entre los usuarios que confían en una herramienta y aquellos que desconfían de la misma. La experiencia y la confianza son factores claves que identifican al usuario y deben tenerse en cuenta al analizar la interacción.

Otra similitud es que la experiencia y la confianza pueden evolucionar. En principio la experiencia debería mejorar con el tiempo de uso, pero en el caso de la confianza, esta podría evolucionar tanto positiva como negativamente.

Las investigaciones en el campo de interacción persona-computador e interacción persona-robot realizados hasta la fecha muestran claramente como la confianza de los usuarios en la inteligencia artificial es uno de los factores cruciales que pueden influir en la adopción y el uso de cualquier sistema que emplee IA. Por tanto, no cabe duda que evaluar la confianza en la IA es fundamental y que esta evaluación debe realizarse de manera periódica, pues puede evolucionar e influenciar drásticamente en su uso.

¿Cómo evaluar la confianza en la Inteligencia Artificial?

Muchos investigadores académicos y pertenecientes a empresas han señalado la necesidad de desarrollar métodos cualitativos y cuantitativos para evaluar el grado de confianza en los estudios de interacción que utilizan herramientas basadas en inteligencia artificial.

En este sentido, hay que empezar destacando la necesidad de distinguir entre la confianza percibida por un usuario y la “fiabilidad real” de un sistema que use inteligencia artificial, asociada a datos estadísticos que muestran la eficacia y eficiencia. Esta necesidad no puede ignorarse porque la evidencia demuestra que lo que percibe un usuario puede diferir significativamente de la realidad, lo cual, como ya he mencionado influye significativamente en la forma en que el usuario interactúa con una IA.

Si bien, esta circunstancia ocurre también en sistemas que no emplean inteligencia artificial, como he venido explicando, el contexto es profundamente distinto. En el artículo “POTDAI: A Tool to Evaluate the Perceived Operational Trust Degree in Artificial Intelligence Systems”, publicado en la revista IEEE Access, presento un método para evaluar la confianza en sistemas que emplean IA, especialmente útil para casos donde seguir o no las indicaciones de una IA puede tener consecuencias graves.

El trabajo de investigación estuvo centrado en el desarrollo de modelos de IA confiables para el uso en intervenciones policiales, en el marco del proyecto “HUMANE-AI”, financiado por la Comisión Europea. Gracias al trabajo realizado, hemos elaborado un cuestionario breve de aplicación rápida y sencilla, inspirado en la versión original del Modelo de Aceptación de Tecnología (TAM) con seis ítems tipo Likert.

De este modo, respondemos también a la necesidad señalada por varios autores de ampliar uno de los modelos de evaluación de la aceptación tecnológica más extendidos, para abordar cuestiones relacionadas con la percepción del usuario en sistemas con un componente de IA. Este cuestionario puede utilizarse solo o en combinación con el TAM para obtener información adicional sobre su utilidad y facilidad de uso.

Índice

Compartir