Big data: de la intuición informada a la intuición cuantificada

(texto publicado originalmente en el número 64 de Economía Extrerior)

La explosión en la producción de datos no es solamente un fenómeno que concierne a la economía, las ciencias sociales o las disciplinas académicas que tradicionalmente han trabajado con números y estadísticas. La explosión es de tal magnitud y corta transversalmente en ámbitos del conocimiento tan distintos que no se puede abordar exclusivamente desde una disciplina. De las ciencias económicas al transporte publico, pasando por las políticas de sanidad —ámbitos muy diversos están siendo afectados por la irrupción de nuevas formas de medir, entender y organizar la información relacionada con estas actividades. Afecta también la forma en la que se establecen las jerarquías del conocimiento y se diseñan los procesos institucionales.

En el ámbito de las campañas electorales, la carrera presidencial de 2012 en Estados Unidos ofrece un pequeño microcosmo para entender la carrera de los datos y cómo está cambiando prácticas y organizaciones que hasta hace muy poco estaban blindadas de incorporar este tipo de información a sus procesos de toma de decisiones.

El éxito electoral de Obama en 2012 se basó en una sofisticada estrategia de datos que logró no solo hacer un microtargeting preciso y eficaz a los electores. Más importante todavía, permitió que la dirección de la campaña en Chicago contara con información precisa y accionable a lo largo del proceso que le ayudó a tomar decisiones cruciales basadas en la mejor información a su alcance. Del estado de las finanzas de la campaña al número de voluntarios disponibles en un día determinado en un condado remoto de Ohio; de sofisticados modelos que analizaban la complicada aritmética del Colegio Electoral a bases de datos que diseccionaban al electorado en base a cientos de categorías y criterios.

Con cifras de paro inusualmente altas, una recuperación económica débil que jugaba en su contra y un electorado muy dividido, una parte importante del éxito de la campaña se basó en construir una plataforma de información en tiempo real que informó las decisiones del equipo a lo largo de los más de doce meses del proceso. En el centro de esa plataforma, los datos como el nuevo elemento constitutivo de la información. Fuera quedaron los asesores políticos de antaño; los insiders consumados del partido e, incluso, los focus groups y las encuestas tradicionales. ¿Qué los reemplazó? El equipo de datos. Encabezado por el que seguramente será el flamante cargo de cualquier campaña del futuro: el chief data scientist.

Los primeros tres aparatados explican cómo los datos se han convertido en el centro de las campañas electorales —y muy pronto de las políticas públicas—. El cuarto y quinto ofrecen algunas recomendaciones sobre qué tendrán que hacer las organizaciones y partidos políticos en Europa y España para adaptarse a esta nueva realidad.

De los medios sociales a la estrategia de datos

En términos de innovación, cuatro años son todo una era en tecnología. 2012 se pareció poco a 2008 en relación al tipo de estrategia utilizada por el cuartel general de Obama. De la improvisación de la primera campaña basada en la web social (Facebook, correo electrónico, vídeos virales, etc.) se dio paso a una estrategia mucho más compleja que en su centro tenía una plataforma de datos. Es decir, una infraestructura informática de recolección de información en temas de interés para la campaña: votantes registrados, afiliación a los partidos, series históricas de votación, repositorios de encuestas y un largo, largo etcétera. ¿La finalidad? Proporcionar a la campaña una herramienta de información en tiempo real sobre el estado de la contienda. Convertir, en otras palabras, múltiples datos inconexos en información y tendencias útiles para tomar decisiones. De la macro estrategia y el mensaje general a micro decisiones sobre publicidad o colores utilizados en un correo electrónico enviado a votantes potenciales. Los datos informaban las decisiones.

El trabajo tradicional de encuestadores, asesores de comunicación e insiders de los partidos —los que han mantenido durante décadas la atención del candidato y el control de los ciclos electorales dentro de los partidos— perdió relevancia en un mundo abundante en datos en el que fenómenos antiguamente ininteligibles se pueden cuantificar, analizar y enmarcar de nuevas y más eficaces maneras (desplazando, por tanto, a los asesores tradicionales). En otras palabras, la operación de una campaña electoral se profesionaliza. El papel de los asesores de imagen y comunicación, por ejemplo, es desplazado por el de científicos sociales, expertos en estadística y politólogos. Los encuestadores tradicionales, por su parte, son reemplazados por informáticos con conocimientos de modelos estadísticos complejos que indagan más allá del carácter unidimensional —y muchas veces simplista— de las encuestas tradicionales.

El eje de este nuevo tipo de campaña se basa principalmente en la incorporación de tres perfiles profesionales al centro de la estructura de toma de decisiones: expertos en estadística, científicos sociales y hackers.

Los primeros dotan al equipo de una lectura más sofisticada de los números. La demoscopia tradicional pasa de las encuestas, los sondeos y los focus groups a una interpretación más amplia de una variedad muy diversa de datos. Demográficos, de comportamiento electoral, financieros, historiales de crédito, preferencias comerciales, barrios de residencia, etc. Todos cruzados entre sí y analizados de una manera distinta y novedosa. Aunque la existencia de ninguno de estos datos es nueva, la forma de recopilarlos, procesarlos y analizarlos sí lo es. Este cambio en sí mismo está modificando el funcionamiento interno y forma de tomar decisiones de las campañas. Los datos verificables, y no las intuiciones o el dictado de los insiders de los partidos, se vuelven el criterio clave de operación de las campañas. Se incorpora más información, se analiza de manera distinta y se vuelve en una pieza más central del proceso de toma de decisiones.

Los segundos, los científicos sociales —que pueden ser desde economistas expertos en presupuestos públicos hasta psicólogos especializados en patrones de voto—, vienen a reemplazar el trabajo de asesores de comunicación que durante décadas se han dedicado a “empaquetar” a los candidatos para aparecer y hablar en televisión. Se comienzan a dejar atrás los sound bites y se empieza a formular un discurso más complejo y matizado diseñado para la era de los medios de comunicación bidireccionales.

Finalmente, los hackers. El elemento disruptivo. Expertos en informática que saben, sobre todo, modelar los datos y la información de nuevas maneras. Es decir, coger sets de datos, encuestas, información demográfica, sets históricos de votación y darles una nueva interpretación. Cruzar información, relacionar datos aparentemente inconexos y establecer patrones entre diferentes fenómenos sociales a través de los números. La intersección de esta nueva forma de entender y utilizar los datos y el trabajo de prospectiva que hacen con ella estadísticos y científicos sociales fue la diferencia fundamental de la campaña de Obama en 2012.

En resumen, no solo son los datos, es la nueva manera de 1) recolectarlos 2) procesarlos/analizarlos 3) tomar decisiones en base a ellos.

El periodismo de datos como nuevo frente en la reconversión digital

El economista, periodista y analista de datos, Nate Silver, proporciona el estudio de caso más apto para entender la dimensión e implicaciones del cambio de modelo. Aficionado a las estadísticas del beisbol, saltó a la fama en 2008 cuando montó un blog independiente que comenzó a utilizar métodos de análisis de las estadísticas de ese deporte para entender mejor los números y las encuestas políticas. En la elección presidencial de 2008 predijo correctamente al ganador de 49 de los 50 estados.

En 2010 The New York Times le fichó y se convirtió de facto en el analista de encuestas del periódico neoyorquino. Su trabajo, una mezcla de análisis de encuestas tradicionales con una forma más sofisticada de interpretar sus resultados, ha cambiado súbitamente la jerarquía de la información en Estados Unidos. Atacado con virulencia por la prensa tradicional —sobre todo por los llamados pundits, los tertulianos que durante décadas han fundamentado sus opiniones en intuición o, en el mejor de los casos, secretos a voces dentro de los partidos u organizaciones—, Silver es considerado ahora el pionero de un nuevo género de información al que podríamos llamar periodismo cuantificable —en inglés, data journalism—. Es decir, información respaldada más por datos que por percepciones; más por el estudio serio de diversos fenómenos sociales que por las impresiones recogidas a pie de calle; más por el procesamiento riguroso de sets de datos históricos que por las agendas ideológicas de los medios de comunicación o las encuestadoras.

El trabajo de Silver es novedoso sobre todo porque aplica rigor y metodología a un campo que era monopolio de los insiders del proceso político —partidos, asesores, medios de comunicación, encuestadoras—. Utiliza los números de las encuestas tradicionales y les aplica una serie de criterios y valoraciones basadas en un índice de desempeño histórico confeccionado por él que le permite hacer una lectura más clara de las tendencias. Así, por ejemplo, mientras la mayor parte de los medios de comunicación pasaron el verano y recta final de la campaña de 2012 asegurando que era un cuerpo a cuerpo en el que por momentos adelantaba uno y en otros el rival, Silver se mantuvo firme en su lectura y dio a Obama a lo largo de la mayor parte del proceso la ventaja por la que terminó ganando —especialmente en los números del Colegio Electoral, los que realmente importan—. Un método de análisis, en suma, más científico que no solo se corrige a sí mismo (cada ciclo electoral permite ajustar el modelo, ponderando los criterios utilizados de acuerdo a los resultados), explica de manera más matizada fenómenos sociales complejos y su interacción con el proceso político y los resultados electorales. El propio Silver lo resume así: “Ahora se trata de los números —con sus imperfecciones— versus la demagogia de las opiniones”.

El futuro de las políticas públicas pasa por los datos

El cambio de paradigma en el manejo de la información no se limita a la arena electoral. Incluso, me atrevería a vaticinar —aunque llevará más tiempo y el camino será más sinuoso— el efecto último y más contundente será sobre la propia valoración y el diseño de las políticas públicas. Es decir, una reinvención en la forma en la que los gobiernos identifican, valoran, diseñan e implementan las políticas públicas. La abundancia de datos —los gobiernos, con diferencia, son los actores que más generan: de estadísticas de transporte a salud; de recaudación fiscal a números y tendencias de inmigración— y esta nueva capacidad para procesarlos están poniendo de cabeza el proceso de formulación de políticas públicas. Desplazan expertises y empoderan a nuevos actores para participar de un proceso que, si ha de velar por el cumplimiento del interés general, necesita de manera permanente la mejor información disponible (compitiendo así con la noción de “información perfecta” con la que en teoría operan los mercados).

A partir de ahora las decisiones públicas deberán de tomar en cuenta esta nueva realidad: además de los consensos parlamentarios y los pactos políticos, la medición certera de la eficacia —o ineficacia— de las políticas publicas se convertirá en un criterio fundamental para tomar decisiones. Una parte importante del desarrollo económico del siglo XXI dependerá de la capacidad de los países para adaptar sus instituciones y procesos de toma de decisiones —al final de cuentas, su burocracia— a esta nueva forma de utilizar los datos e información disponibles para tomar mejores decisiones.

La demostración empírica de la importancia de los datos y la información precisa en tiempo real durante la campaña presidencial de 2012 solo acelerará y ampliará esta tendencia.

El análisis de datos como condición sine qua non para la toma de decisiones

Comencé diciendo que la elección de 2008 se pareció poco a la de 2012 en términos de organización y uso de las tecnologías de la información. De la misma manera, se parecerá poco la forma en la que partidos y organizaciones fuera de Estados Unidos intenten adaptar el método Obama. A diferencia de 2008, cuando una parte importante del método giraba en torno a la web social, las campañas virales y la centralización del proceso de organización, en 2012 giró en torno a los datos y al trabajo que hacen con ellos disciplinas científicas. El método, por tanto, no se puede simplemente replicar.

Lo que sí se puede hacer es comenzar a preparar el terreno dentro de los partidos y organizaciones. Comenzar a cambiar la forma en la que se conciben las jerarquías internas y los procesos de toma de decisiones. El éxito último de las dos campañas presidenciales de Obama no fueron ni las redes sociales, los vídeos virales o su web de última generación. Ni siquiera el uso revolucionario de los datos. Fue, principalmente, el haber sido capaz de voltear de cabeza la jerarquía de su campaña. La forma de concebir el orden interno y cómo y quién tomaba las decisiones. De ser capaces de centralizar competencias al tiempo que se descentralizaban decisiones; de deshacerse de asesores innecesarios al tiempo que se incorporaban al equipo profesionales más jóvenes con competencias distintas a las típicamente esperadas en una campaña presidencial. De favorecer la competencia profesional y política a las lealtades ideológicas o de partido. De poner por encima el componente político del mensaje a la cosmética de la imagen y los eslóganes. En última instancia el éxito de Obama se debió a estas transformaciones. El uso inteligente de las tecnologías de la información simplemente lo asistió.

 El reto europeo

En relación específica a los datos y las nuevas posibilidades que se abren, el reto para Europa y España es doble. Son dos los componentes fundamentales detrás de su uso adecuado: la producción de datos en bruto (la materia prima) y los expertises (el know how) necesarios para hacer algo útil con ellos.

Obtener materia prima de buena calidad es un proceso largo y complicado que no se puede simplemente emular. Aunque pocos países tienen tan desarrollada la cultura de recolección de datos que tiene Estados Unidos, el crecimiento exponencial y la presencia de las tecnologías de la información en la vida cotidiana está acelerando ese proceso en la mayor parte del mundo (sobre todo en las economías avanzadas). En ese sentido, el elemento clave es el marco regulatorio. Es decir, la legislación que no solo protege y transparente los datos, sino también, que fomenta su recolección y uso racional de ellos. Aquí entramos en el campo de la importancia que tienen iniciativas sobre Gobierno Abierto (Open Government) y leyes de transparencia robustas y a la par con los tiempos.

Los partidos políticos en España que crean en la naturaleza abierta de los datos recolectados por las administraciones, deberán presionar para que Gobierno central y autonomías creen marcos regulatorios para la liberación de repositorios de datos ya existentes. La clave está en ordenar estos datos, publicarlos en formatos estandarizados legibles por ordenadores (machine readable) y crear canales de distribución a los usuarios finales. Que pueden ser desde las propias administraciones hasta universidades, medios de comunicación, think tanks, etc. Los datos comienzan a cobrar valor cuando se genera un ecosistema de usuarios e información en torno a ellos.

El entorno ideal para experimentar con datos es el gobierno local. Construir una cultura de datos de lo local hacia arriba facilita el ensayo y la adaptación a las necesidades de una determinada cultura política. Lo es también por los costes prohibitivos en muchos casos de iniciativas que intentan abarcar demasiados niveles y cortan transversalmente las competencias de los gobiernos. Aunque en España existen iniciativas puntuales de apertura de datos, sigue sin existir una forma original de leerlos, interpretarlos y relacionarlos con otros fenómenos. Sigue sin existir, más todavía, el ecosistema apropiado para que los datos pasen de las administraciones a los medios de comunicación, a los partidos, a la empresa privada y de allí, nuevamente,  se vuelvan a reciclar e intercambiar. El reto inicial, por tanto, comienza allí. En fomentar este círculo virtuoso.

Para conseguirlo habrá que lanzar iniciativas específicas para profesionalizar y sistematizar la recolección de datos a nivel local, regional, nacional y Europeo. Homogeneizar y estandarizar la legislación en la materia. No solo en los aspectos más obvios relacionados a la utilidad que puedan tener para las campañas electorales. Temas de salud, transporte, energía, entre muchos más serán claves en el futuro y contribuirán a crea una cultura de datos más robusta que se retroalimente constantemente (lo que en la jerga de los datos se conoce como feedback loops).

Lo mismo se puede decir de partidos y organizaciones hacia su interior. Fomentar la recolección, análisis y uso compartido de información es una tarea interna de las propias organizaciones. Además de la utilización eficaz de las tecnologías de la información, el cambio depende fundamentalmente de la transformación interna de las organizaciones. De derribar los obstáculos internos que limitan el uso eficaz de la información. De rediseñar las jerarquías. Aplanarlas un poco (solo un poco, no se trata de desaparecerlas) al tiempo que se privilegia una forma más profesional de entender el expertise y las competencias del equipo.

Lo que nos lleva al segundo punto, la importancia del know how. Aquí, los partidos y organizaciones se enfrentan al reto de abrirse y fomentar la incorporación de nuevos actores. Desde hackers e informáticos hasta académicos de universidades especializados en detalles oscuros y desconocidos del comportamiento electoral. Uno de los aspectos que más afectó (y puso en desventaja) a la campaña de Mitt Romney durante la elección de 2012 fue la aversión que ha provocado su partido en medios científicos y tecnológicos debido a su rechazo de fenómenos científicamente comprobados pero políticamente rechazados (el cambio climático es solo uno de ellos). Al final de cuentas se trata de atraer el mejor conocimiento disponible. Sin importar la proveniencia, ideología o cargos dentro de una campaña. Las estructuras partidistas y organizacionales, pues, se comienzan a reorganizar en torno al conocimiento. En torno a la mejor manera de obtenerlo, procesarlo y decidir en base a él. De la rapidez y eficacia con la que se consiga esta transformación dependerán los réditos que se obtengan.

Y lo mismo sucederá en muchos otros ámbitos ajenos a la competencia electoral. En la era de la abundancia de la información, el conocimiento se comienza a estructurar de una manera distinta. En esta nueva jerarquía, por debajo de la información y el conocimiento, se inserta una capa de datos que informa micro procesos que hasta hace muy poco era muy difícil cuantificar. Así, se comienza a establecer una nueva estructura que se compone por tres capas en forma piramidal: datos, información y conocimiento.

El reto, se trate de la academia, aquellos que diseñan políticas públicas o los que analizan la información financiera, será crear una estructura de recolección, procesamiento y toma de decisiones que se adapte mejor a este flujo. Una buena parte del valor que se añada a los procesos productivos en los próximos años vendrá precisamente de allí.