Página/12 :: Contratapa :: Falsos positivos (Parte 2)

En el mundo actual las estadísticas tienen un lugar preponderante: hay estadísticas para todo. Buenas, malas, útiles, irrelevantes, reveladoras... y la lista puede seguir. También sucede que al hacerse pruebas o experimentos, algunos resultados se corren de lo esperable. Por ejemplo, en las encuestas previas a una elección, las estimaciones vienen con el equivalente de una letra chica, que uno no quiere aceptar, pero que es determinante: el error. Es decir, un porcentaje en más o en menos sobre el valor indicado. Digo que uno no lo quiere aceptar porque nosotros queremos resultados tajantes, definitorios, categóricos y contundentes. “¡Que no queden dudas!: Gana A o gana B.” Pero los márgenes que suelen determinar una victoria en elecciones parejas son muy estrechos y, por lo tanto, se hace virtualmente imposible predecir el ganador. Las encuestas requieren de ofrecer sus resultados con error, pero la sociedad no quiere escuchar.

En el tema de las elecciones, las encuestas tienen fecha de expiración: el día del sufragio. Allí se sabe la verdad, allí se conocerán los hechos. Pero hay otros episodios de la vida cotidiana donde ese “tal” día no existe y, por lo tanto, los que hacen predicciones necesitan que el interlocutor acepte coexistir con el error, con ese porcentaje de incerteza que conlleva no hacer una medición exhaustiva, o sea, analizar todos los casos (como en el caso de una elección) o sencillamente porque no hay certezas posibles (tiempo de vida de una persona enferma, por ejemplo).

¿Cuántas veces en su vida escuchó usted hablar de falsos positivos? Seguramente muchas. Lo que sucede es que uno no les da importancia salvo que el involucrado sea uno mismo o algún ser querido. Por ejemplo, un test para determinar si una mujer está embarazada puede no ser 100 por ciento seguro: es un caso típico de falso positivo.

También podría suceder que al cruzar los sistemas de seguridad en un aeropuerto la alarma suene como si usted estuviera llevando un objeto metálico, pero ese sistema puede ser tan sensible como para detectar una moneda que le quedó olvidada. O podría ser que sonara igual y uno no tiene nada metálico visible o reconocible.

El servicio de correo electrónico que usa cada uno de nosotros suele enviar a una carpeta Spam, aquellos mensajes que el programa detecta como indeseables. Sin embargo, estoy seguro de que a usted le debe haber pasado que fue a parar allí un mensaje que usted hubiera querido retener o leer. Es otro ejemplo de falso positivo.

O la propia computadora podría anunciarle que hay un archivo infectado con un virus, cuando en realidad no es así. O en las fábricas en donde se requiere un control de calidad, algunos productos no lo superan y el sistema los considera “extraños” cuando debería aceptarlos por buenos. Este sería un ejemplo de falso negativo. Y podría seguir, pero quiero parar acá.

Todo esto que escribí tiene una intención y es provocarla/lo a decidir si el porcentaje de seguridad que ofrece el sistema que yo le voy a proponer le parece confiable o no. Lo extraigo de un excelente trabajo que hizo Claudio Fernández Aráoz, uno de los mejores expertos argentinos en selección de personal [1]. Prepárese a pensar y sacar sus propias conclusiones. Sobre el final, analizaremos juntos los resultados.

Suponga que usted se enfrenta a un grupo de profesionales de los que tiene que seleccionar el 10 por ciento de los mejores, para trabajos de gerente en una compañía. No importa cuántos sean, usted solamente quiere quedarse con los mejores postulantes. ¿Cómo hacer para detectar justamente ese 10 por ciento?

Sus asesores le acercan un método que le ofrece las siguientes garantías: “Si los candidatos superan una serie de preguntas y resuelven una cantidad de problemas, el método provee una evaluación con un 90 por ciento de precisión”.

Es decir, aquellos que pasen por el tamiz que usted les propone tienen un 90 por ciento de posibilidades de pertenecer a ese grupo del 10 por ciento de los mejores.

¿Le parece que un método que tiene la intención de reclutar sólo el “Top 10 por ciento” y que ofrece una evaluación con un 90 por ciento de precisión es un método confiable?

Usted y yo sabemos que no hay método infalible, eso no lo puede garantizar nadie, pero, insisto, si le aseguraran una eficacia del 90 por ciento, ¿usted diría que es aceptable o no?

Ahora le toca pensar a usted. Yo sigo acá abajo, pero créame que no vale la pena leer lo que sigue si no le dedica un rato a pensar mi propuesta en soledad.

Análisis

Para analizar cuán bueno es el método, le propongo que supongamos que en total hay 100 candidatos. Eso va a hacer que las cuentas sean más sencillas, pero obviamente, el sistema de detección no depende del número de aspirantes sino de la eficacia intrínseca.

Como se trata de detectar el 10 por ciento de los postulantes, usted tratará de descubrir los 10 mejores entre los 100. Eso significa también que en el camino usted determinará cuáles son los 90 que –obviamente– no están en ese grupo.

De esos 10 mejores, como usted tiene un 90 por ciento de eficiencia, su método le permitirá descubrir a nueve, ya que uno se le va a escapar. O sea, uno de los buenos, uno de los diez que usted querría distinguir, no pasó la prueba cuando debió haberla superado. Este candidato será un falso negativo.

De la misma forma, entre los 90 que no están en ese grupo, ¡se le van a filtrar nueve que usted creerá que están entre los buenos! Estos van a ser los falsos positivos.

¿Cuál es la moraleja? Con estos datos que acabamos de pensar juntos, ¿qué le parece ahora el método?

Creo que lo que le sucede a usted, como me sucedió a mí, es que un método que parece poco menos que infalible sirve para que usted encuentre nueve que son del grupo que usted quiere, pero también nueve que son del grupo que no quiere. O sea que su eficiencia se reduce a un 50 por ciento. Quedan distinguidas 18 personas, pero solamente nueve de ellas son las que usted querría descubrir.

Este ejemplo es muy útil en ese sentido. Sirve para poner en perspectiva el tema del error en la apreciación o los falsos positivos (o negativos) para usar los nombres más aceptados. Por supuesto que dependerá del contexto, pero los métodos de evaluación –sean en el campo que sean– cuando se trata de reconocer los “falsos positivos” y cómo tratarlos, requieren de cuidados muy especiales.

Las estadísticas son potentes y muy útiles, pero no infalibles ni perfectas. El problema es que los humanos nos llevamos mal con la ambigüedad, con lo que no sea categórico y final. Lamentablemente, los científicos pueden dar muchas respuestas, pero no todas, y entiendo que no es fácil aprender a coexistir con la duda, aceptar la frustración de no llegar hasta el 100 por ciento. Pero así es la vida... al menos por ahora.

[1] Llegué hasta el trabajo de Fernández Aráoz a través de mi amigo Santiago Bilinkis, uno de los curadores del TEDxRiodelaPlata.

Supuestos:

1. Intención de reclutar sólo el “Top 10%”.

2. Evaluación con un 90% de precisión.

Pregunta:

¿Qué porcentaje de “Top 10%” finalmente recluta?

Respuesta:

a) 100 profesionales.

b) 10% = 10 están en el “Top” que queremos reclutar.

c) 90% = 90 son los que queremos dejar afuera.

d) De los 10 que querríamos reclutar, alcanzamos a detectar nueve. Se nos escapa uno.

e) De los 90 que querríamos excluir, 81 quedan eliminados pero nueve quedan incluidos.

Moraleja:

Aun con una precisión del 90 por ciento, retenemos 18 personas, de las cuales nueve están entre los que querríamos y nueve querríamos haber eliminado, pero se nos filtraron. Luego, tenemos un 50 por ciento de efectividad.