Página/12 :: Contratapa :: Los teléfonos celulares y la ciencia de los datos

Domingo, 23 de noviembre de 2014 | Hoy

CONTRATAPA

Los teléfonos celulares y la ciencia de los datos

Por Adrián Paenza

Para empezar, le pido que lea con atención el párrafo que figura acá abajo.

“En la década pasada, los teléfonos celulares han adquirido una fuerte popularidad en todo el mundo, cruzando todos los grupos demográficos. Son usados por hombres y mujeres indistintamente, cubriendo un amplio espectro de edades e independientemente de la riqueza del país en donde se encuentre el usuario. Estos teléfonos móviles se han transformado en uno de los mecanismos más importantes para estudiar la interacción social dentro de una población, convirtiéndose en una fuente increíble de información para analizar el comportamiento humano, la demografía humana y sus correlaciones. En particular, la información que uno recoge a través de las comunicaciones por vía de la telefonía celular están siendo usadas para elaborar análisis cuantitativos en la demografía de los usuarios, separándolos por edades, género, educación y poder adquisitivo”.

Este párrafo inicial debería ser lo suficientemente atractivo como para entender el salto de calidad que hemos dado en la última década. Para hacer estudios en el pasado era necesario mirar a “muestras” muy pequeñas, ya que el costo las transformaba en prohibitivas. La tentación a extrapolar sin tener suficientes datos nos hizo conjeturar cosas que terminaron siendo falsas. Pero aún más: la cantidad de datos que tenemos hoy es tan abrumadora, que si bien uno sabe que dentro de ese océano de información están escondidos mensajes, resulta muy difícil aún descifrarlos. Carlos Sarraute (1) lo puso en las siguientes palabras: “Uno sabe que hay una mina de oro escondida en alguna parte. Bien, pero ¿dónde buscar las pepitas?”.

Hacer las preguntas adecuadas, entender qué buscar y dónde buscar es una tarea a la que se dedica la Ciencia de los Datos. La “memoria” que se requiere usar es cada vez más grande, pero al mismo tiempo es cada vez más barata. Es por eso que en lugar de seleccionar, uno tolera “llevarse todo”: “Ya veremos cómo buscar lo que necesitamos”. Estoy seguro de que aquellas personas que tenemos el privilegio de usar “desde siempre” una computadora entendemos bien de qué se trata aun cuando uno las usa para tareas personales. ¿Cuántos de nosotros/ustedes tienen múltiples copias de un archivo que no necesita/mos? Antes, uno era muy precavido con lo que almacenaba, porque los armarios o cajas o cajones que teníamos disponibles eran muy pocos. Por eso los cuidábamos mucho. Hoy, ya no hace falta. Esa ventaja cuantitativa tiene un costo: cada vez cuesta más trabajo encontrar lo que uno busca.

Suponga que usted pudiera registrar todas las conversaciones telefónicas que se han hecho usando teléfonos celulares, todos los mensajes de texto, todas las fotos que se sacaron, todos los videos que se grabaron, toda la música que se escuchó, etc., etc.... ¿Y entonces? Aunque uno lo haga en forma anónima, aunque uno sea hipercuidadoso con la discreción que corresponde, aunque uno no quiera aprovecharse de las “fallas del sistema”, aun así.. ¿qué buscar? ¿Qué es lo importante? ¿Qué es lo que queremos aprender que no sabemos e intuimos que está escondido en esa montaña virtualmente “infinita” de información?

Como escribí más arriba habrá que educarse para saber qué preguntas hacer. Me surgen disparadores por todos lados. Se me mezcla la curiosidad que tenemos los humanos para descubrir cosas que ni sabíamos que nos interesaban hasta que las vimos por primera vez, con las dudas sobre lo “maligno” que esto podría resultar si esta montaña de datos quedara en “malas manos” (si es que no lo está ya). ¿Qué conclusiones estaremos dispuestos a tolerar? ¿Y si resulta que descubrimos cosas que no queremos saber? Así dicho, parece tonto: ¿cómo no vamos a querer saber? Bueno, podría haber gente que no quiera conocer determinadas cosas de su vida. Lo voy a poner en términos extremos para “tratar de tener razón”. Supongamos que usted pudiera averiguar que tiene una enfermedad que no conoce, silenciosa porque no tiene síntomas, pero que lo va a matar en un lapso muy breve. Exagero con el ejemplo en forma adrede para invitarla/lo a pensar. ¿Reaccionaríamos todos igual? ¿Todos querríamos saber? O mejor dicho, ¿todos querrían saber?

Las diferencias individuales que tenemos son fascinantes. Somos un mundo de individualidades tratando de coexistir en sociedad. Pero nuestras particularidades –inexorablemente– nos distinguen. Pero, como queda muy claro, me desvié de mi objetivo que era contar un trabajo científico que les valió a los autores (2), todos argentinos, el reconocimiento internacional que los/nos ubica en un lugar privilegiado en el mundo cuando se trata de hacer estudios de este tipo.

El trabajo se hizo con datos provistos por una compañía de teléfonos celulares en México. La idea era detectar algunos atributos de los usuarios (más específicamente), ser capaces de “deducir las edades de los clientes”. Me explico: la compañía les entregó datos de más de 90 millones de usuarios. Lo quiero escribir otra vez para que no crea que me equivoqué: más de noventa millones de usuarios. La base de datos usada consistió en las llamadas telefónicas que se efectuaron y también los SMS (mensajes de texto breves). Se recolectaron más de dos mil millones de llamados y otros dos mil millones de mensajes de texto. Se recopilaron en un plazo de tres meses y cada registro contenía la información detallada de los números de teléfono (pero anónimos en el sentido de que no se sabe quién es el usuario al que le corresponde ese número) y consistía en la información tanto de quien hacía la llamada como de quien la recibía. Se registraba también la duración de la llamada, el momento del día en el que se efectuaba y las antenas que fue utilizando el cliente a medida que se de- sarrollaba la acción.

Esta información tan detallada les permitió crear una red dinámica compleja con el agregado de la posibilidad de estudiar la movilidad, habida cuenta del cambio de antenas que se producía en el momento de la llamada.

Los autores separaron los datos para analizar un grupo de ellos y, luego, confrontar con el resto que tenían para saber si las inferencias que habían hecho eran correctas. En principio, dividieron a los usuarios –por edades– en cuatro categorías: menores de 25 años, entre 25 y 34, otra entre 34 y 49 y, la última, mayores de 50 años. La motivación que los llevó a hacer esta subdivisión que parece arbitraria fue debido a intereses particulares que tenía la compañía telefónica.

Las conclusiones más importantes fueron las siguientes:

a) Si bien la población mexicana tiene número de hombres y mujeres distribuidos en “mitades” (aproximadamente), esos porcentajes no se respetan entre los usuarios de telefonía celular. El 57 por ciento son hombres y el 43 por ciento, obviamente, mujeres. La diferencia es ciertamente muy notable. La desigualdad de género en cantidad también se manifiesta en el tiempo y duración de los llamados. El género masculino habla más tiempo, o por lo menos, está “más pegado al teléfono”.

b) Al distinguir las llamadas entrantes y salientes, también hay una asimetría. Los hombres hablan más tiempo cuando son ellos los que inician la llamada, pero son las mujeres las que hablan más tiempo cuando son ellas las que reciben la llamada.

c) Existe una fuerte homofilia respecto de la edad cuando uno estudia el grafo de las comunicaciones. ¿Qué quiere decir esto? Esencialmente significa que los humanos (al menos los que viven en México) tienen una tendencia desde el punto de vista estadístico a comunicarse con personas de edades similares. Es decir, hablan más con la gente de su propia edad que con cualquier otro grupo.

d) Sin embargo, el segundo “pico” de comunicaciones se da para una diferencia de edades de 25 años. Por ejemplo, un joven de 30 años habla más (en promedio) con otros jóvenes de 30 años o de edades cercanas, pero el segundo grupo relevante corresponde al de gente que tiene alrededor de 55 años. Si uno se permite pensar que cada 25 años se produce un salto generacional, es esperable que estas comunicaciones correspondan a llamados de hijos a sus padres (y al revés).

e) Otro dato interesante tiene que ver con cierta homofilia respecto del género. Es decir, los hombres hablan más entre ellos y lo mismo sucede con las mujeres. Me apuro a escribir una vez más (igual que los autores): todo esto es “en promedio”.

Con todos estos resultados, análisis posteriores les permitieron desarrollar un nuevo modelo, esta vez basado en la información de los vínculos de cada persona. ¿Qué quiere decir esto? Como todos los usuarios fueron divididos en cuatro categorías (por edades), si uno tomara una persona al azar, tendría un 25 por ciento de posibilidades de pertenecer a alguno de los grupos (la probabilidad de pertenecer a cada grupo es ¼). Sin embargo, usando el nuevo modelo, el algoritmo permite decidir a qué grupo pertenece esa persona con un 62 por ciento de posibilidades de estar en lo cierto. Como se advierte, es un resultado muy fuerte: uno puede inferir la edad de la persona en cuestión, en función de las personas con las que se comunica. Algo así como “dime con quién hablas y te diré qué edad tienes”.

Más allá de este estudio particular de los cientos que están haciendo mientras yo escribo esto y usted lo lee, decía, mi idea es mostrar cuál es la potencia de esta nueva ciencia conocida como “la ciencia de los datos”. Hasta hace nada más que diez años, todo esto habría sido imposible. La decodificación del genoma humano habría sido imposible. Toda la estructura en la que se basa la “minería de datos” habría sido imposible. Y la lista sigue.

Mientras tanto, uno sigue dejando huellas por todos lados, totalmente inconsciente de lo que hace y como si todo esto que está sucediendo les estuviera pasando “a los otros”. Bueno, lamento informar que no es así. Está aquí, acá, a su alrededor, “casi” en todas partes. No es ni bueno ni malo. Es. En la medida en que cada uno sepa que existe, sabrá qué es lo que hace, qué determinaciones toma. Pero lo que no podemos hacer, o mejor dicho, no deberíamos hacer, es ignorar lo que pasa. Mientras tanto, la vida sigue.

(1) Uno de los autores del trabajo del cual extraje el párrafo inicial,
(2) Harnessing Mobile Phone Social Network Topology to Infer Users Demographic Attributes, por Jorge Brea, Javier Burroni, Martin Minnoni y Carlos Sarraute. O sea, en una traducción libre mía, algo así como “Tratando de ‘dominar’ la Topología de la Red Social provista por los teléfonos celulares, para tratar de inferir los atributos demográficos de los usuarios”.

CONTRATAPA

indice

Los teléfonos celulares y la ciencia de los datos
Por Adrián Paenza

ESCRIBEN HOY

Sitio desarrollado con software libre GNU/Linux.

E-Mail de su amigo
Su nombre
Su E-Mail

Los teléfonos celulares y la ciencia de los datos

Comparta esta nota con un amigo

ESCRIBEN HOY