Páginas

domingo, 25 de octubre de 2015

Portales translúcidos: "pase, puede mirar, pero no tocar"

Hace unos día las universidades públicas valencianas anunciaron al unísono la puesta en marcha de sus portales de transparencia. Es un paso importante hacia la gobernanza transparente, donde la información institucional, económica, docente, etc. se pone a disposición de la ciudadanía en general. Me ciño aquí al portal de transparencia de la Universitat Jaume I. Con anterioridad al portal de transparencia la UJI ya puso en marcha un portal de datos abiertos, siguiendo la tendencia de universidad abierta. En este portal, la UJI recopila algunos datasets más o menos interesantes, y los facilita en varios formatos para su descarga (csv, json, xml/rdf). Independientemente de la cantidad de datos ofrecidos y de la frecuencia de actualización de éstos, lo cual es otro debate, es de alabar que los formatos de datos sean abiertos, estándares y variados. Un usuario "un poco manitas" puede descargarse los datos en formato csv para examinarlos - por decir con R - mientras otro puede utilizar la versión en json para visualizarlos con JavaScript. De esta forma, los mismos datos pueden producir distintas interpretaciones y visualizaciones, y en definitiva, lograr nuevas interpretaciones de los datos. El caso es que un pequeño matiz, - como ofrecer tres formatos abiertos de los mismos datos- puede propiciar grandes beneficios

Volvamos al portal de transparencia. Sin juzgar la naturaleza de los datos expuestos en el portal, me centraré en dos matices que, a mi entender, son más impedimentos que ventajas para la transparencia. 

El primer matiz es el hecho de que el portal de transparencia y el de datos abiertos sean,  dos portales totalmente independientes, sin conexiones, vínculos  o enlaces que los unan. Dos silos de información que no suman, sino dividen.  

El segundo aspecto que me gustaría destacar es que los datos accesibles a través del portal de transparencia son descargables solo en formato pdf. Como sucede en los carteles de las tiendas de antigüedades: "pase, puede mirar, pero no tocar". Algo así no encaja con la idea de transparencia hacia y con la ciudadanía. 

El "Pase, puede mirar, pero no tocar" iría mejor con portales translúcidos, que lamentablemente son lo que realmente ofrecen muchos portales que se etiquetan como transparentes: Te dejo ver alguna cosa, que yo preparo, y nada más. La transparencia reclama un mensaje mucho más directo al ciudadano: "Oye, ven, porque puedes mirar, tocar, criticar lo que quieras, y tu voz será oída". Los portales de datos abiertos deberían ser el sustrato con el que crecen los portales de transparencia. 

domingo, 19 de julio de 2015

Quiero pero no puedo publicar mis datos

En el mundo académico se ha hablado mucho de la compartición de datos (data sharing). El avance de la ciencia ocurre en gran medida cuando se comparten los resultados de las investigaciones entre la comunidad científica. El artículo científico fundamentalmente cubre esta necesidad. Pero una investigación involucra también datos, datos con los que se realizan análisis y se obtienen resultados de interés. Los datos son igual o más importantes que el artículo escrito en sí. De ahí la necesidad imperiosa - para el avance de la ciencia - en fomentar la publicación de estos datos de forma que otros puedan utilizarlos en sus propias investigaciones. Kratz y Strasser (2015) profundizan en el concepto de publicación de datos desde la visión de los investigadores en un reciente artículo en Plos ONE


John Ernest Kratzm Carly Strasser (2015). Researcher  Perspective on Publication and Peer review of Data. Plos ONE 10(2): e0117619

Los autores nos cuentan que los científicos quieren pero no pueden publicar sus datos. Perciben que es un factor clave en el proceso de investigación científica y entienden los potenciales beneficios de no sólo compartir datos, sino de hacerlos públicos de forma permanente. Aún así hay bastante peros. Peros bastante relacionados con las costumbres y conductas establecidas de los propios científicos más que con las limitaciones tecnológicas que, de hecho son inexistentes, puesto que existen diversas soluciones para promover la publicación de datos (ver artículo para más detalles): 1/ como data paper; 2/ en repositorios generalistas como figshare, dryad, o zenodo; y 3/ en repositorios específicos de disciplinas.

De la encuesta que realizan los autores se desprende la falta de tiempo como argumento principal para la publicación de datos. Escribir un artículo lleva su tiempo. Si además hay que documentar seriamente los datos utilizados en un segundo artículo, a los científicos les entra pereza y evitan el segundo. ¿Por qué? Los autores identifican claramente el quid del asunto, el verdadero problema de la falta de publicación de datos. No es la falta de tiempo, sino falta de reconocimiento académico y/o científico en publicar los datos. Si el sistema de acreditación científica diera tanta importancia al artículo científico tradicional como al articulo de de datos, no estaríamos hablando de "quiero y no puedo", sino "me cuenta y lo hago".  

El artículo profundiza en otros aspectos de la publicación de datos, como los miedos a publicar datos por si otros escriben un artículo científico antes, o a la fata de reconocimiento en forma de citaciones de los datos en otros artículos. Dejo al lector que profundice en estas cuestiones libremente. Para cerrar un simple dato del artículo de Kratz y Strasser (2015): 70% de los encuestados que reutilizaron datos escribieron un artículo derivado. Imaginaos si desaprovechamos ideas cuando no se comparten y publican datos en el contexto científico. 

viernes, 26 de junio de 2015

NYPL busca Space/Time Engineer

La New York Public Library anda buscando perfiles raros para que se unan a se equipo de investigación NYPL Labs. Lo primero es una gozada que una biblioteca tenga un equipo de investigación dentro de la casa. Lo segundo aún más extravagante es que buscan a un candidato/a para crear una subseccion aún más rara dentro de NYPL Labs, que de por si ya es raro. El candidato buscado tendrá el sugerente título de Space/Time Directory Engineer y creará el Space/Time Directory.

El candidato requiere de un perfil técnico en tecnológicas geoespaciales (otra vez!) para dar vida a un servicio geoespacial de recursos históricos. Pero atención, dicho Space/Time Directory combinará colecciones históricas con datos creados y proporcionados por los usuarios (crowdsourced data). En fin, un trabajo ideal para un geobibliotecario/a que alterna con suma facilidad entre:


  • la tecnológica y las ciencias sociales, 
  • las colecciones históricas y los datos en tiempo real de la gente,
  • la diseminación en conferencias y a través de "blogging and hack events", y 
  • la habilidad de escribir excelente prosa y código a la vez.



jueves, 14 de mayo de 2015

#destacables #geography #worldcitations #scimago (14/05/2015)

Edmilson J.T. Manganote, Mariana S. Araujo, Peter A. Schulz (2014). Visualization of ranking data: Geographical signatures in international collaboration, leadership and research impact. Journal of Informetrics, 8:642-649
Los datos esconden muchos patrones ocultos.  Y eso es junto lo que nos muestran Manganote y colaboradores ya que exprimen la base de datos de Scimago Institutions Ranking 2012 para jugar con los datos y hacer visibles algunas diferencias significativas entre universidades estadounidenses, europeas, y chinas en términos de colaboración internacional, liderazgo e impacto de la investigación. 

A pesar de que el título contenga "geographical signatures", que nadie espere un mapa en las páginas del artículo.  Cierto es que un mapa es un tipo de visualización más, que no siempre es el diseño adecuado para informar. Los autores se inclinan por scatterplots tradicionales para mostrar como dos variables están relacionadas lo cual, en mi opinión, es suficiente en el contexto del artículo porque los scartterplots logran resaltar e informar al lector de un patrón significativo entre las variables analizadas. Como decía, hay distintos tipos de visualización y el personal de Scimago Institutions Rankings ha trabajado duro para ofrecer un sitio web interactivo que permite seleccionar distintas visualizaciones, incluyendo mapas y gráficos de distribución, para la misma selección de datos.  

Un mismo conjunto de datos puede contar muchas historias, en función de la pregunta inicial que pretende responder. Una explotación más intensa de la base de datos de Scimago desde diferentes perspectivas, es una excelente idea, siempre que se cite adecuadamente a los autores. Como el trabajo duro es la recolección y puesta a punto de los datos, hay que exprimir hasta la última gota de conocimiento de estos. 

jueves, 7 de mayo de 2015

Big bang ¿geo? data

"...big data refer to things one can do at a large scale that cannot be done at a smaller one, to extract new insights or create new forms of value, in ways the change markets, organizations, the relationship between citizens and governments and more...Mayer-Schonberger & Cukier, 2013

Primero en Barcelona organizado por el CCCB, y ahora en Madrid, Espacio Telefonica, la exposición y serie de actividades relacionadas con el #bigdata alerta sobre el potencial de los datos, para lo bueno y para lo malo.

La exposición introduce conceptos como #datificacion, explicado magníficamente por Mayer-Schonberger y Cukier en su libro Big data: a revolution that will transform how we live, work and think, o ¿de qué forma la toma de decisiones se ve influenciada irremediablemente por la necesidad de disponer de datos, limitando así la creatividad y dando cabida a correlaciones para encontrar nuevos patrones escondidos.

"...dictatorship of data, whereby we fetishized the information, the output of our analyses, and end up misusing it..."

Este tema, entre otros, también ha sido tratado por Eli Pariser en The filter bubble: what the internet is hiding from you. London:Penguin books. 

También advierte de los peligros de perder la privacidad de los datos en pos de una socialización digital, presentando las fotos subidas a Flickr en el transcurso de 24 horas. Que ilusa de mí, incluyen mucha más vida personal de lo que pensaba, mucho más que paisajes y fotos de viajes. A la vez que nos hace reflexionar sobre quién está detrás de estos datos, ¿quién los controla?, ¿quién nos controla?


Fotos impresas subidas a Flickr en 24 horas

Y a pesar de que las palabra geo o GIS no aparecen en el título de la exposición, la presencia de éstos es muy fuerte. Desde la presentación del mítico mapa del doctor John Snow, pasando por diferentes visualizaciones (muy espectaculares algunas) plasmadas sobre mapas o esferas, hasta llegar al poder de la tecnología móvil en conjunción con los sistemas de posicionamiento o geolocalización.

Visualizaciones de datos en globos


domingo, 12 de abril de 2015

#destacables #geography #worldcitations (12/04/2015)

Raj Kumar Pan, Kimmo Kaski, Santo Fortunato (2012). World citation and collaboration networks: uncovering the role of geography in science. Scientific Reports, 2:902
Waldo Tobler enunció la primera ley de la geográfica en 1970 como "everything is related to everything else, but near things are more related than distant things". Este hecho, aunque parezca simple en esencia representa un pilar fundamental en Geografía en cuanto que las cosas que se encuentran más cercanas tienden a estar más relacionadas. Y esto no sólo se aplica al campo de la Geografía, sino que se puede extrapolar a otros tantos dominios y disciplinas.

El artículo de arriba trata de validar la primer ley de Tobler haciendo uso de las redes de citaciones y colaboraciones entre científicos, sin que los autores mencionen explícitamente la ley de Tobler.  La hipótesis de partida es que los científicos tienden a interaccionar con más frecuencia con otros científicos que desarrollan su trabajo en áreas cercanas. Algo así como que los científicos tienden a formar agrupamientos o clústers por el criterio de proximidad geográfica. 

Los autores llegan a la conclusión de que la Geografía importa en la formación de redes de colaboración y citaciones ente científicos.  Se cumple la primera ley de Tobler según la que los científicos prefieren colaborar con los colegas más cercanos. Tras establecer la colaboración, normalmente sigue un incremento de citaciones entre los colaboradores. Resumo los resultados del estudio que me han llamado más la atención.

Las redes de colaboración científica y de citaciones entre dos lugares están correlacionados de la siguiente forma:
  • Científicos de una misma ciudad colaboran con mayor frecuencia que con colegas de distintas ciudades
  • A medida que aumenta el tamaño de la ciudad, la mayoría de las colaboraciones (artículos conjuntos) ocurren en la propia ciudad. En ciudades pequeñas, las colaboraciones ocurren con mas frecuencia con científicos externos a la ciudad.
  • La colaboración se incrementa de forma lineal con la cantidad de citaciones intercambiadas ente dos ciudades o países.
  • Sobre la base de que un artículo firmado por un equipo consigue más citaciones que un artículo de única autoría, el estudio añade que la media de citaciones aumenta con el número de co-autores, y especialmente, con el número de afiliaciones internacionales. Por lo tanto, los autores concluyen, las relaciones internacionales se pagan bien en término de impacto científico.
La proximidad geográfica también tiene un efecto interesante en las redes de citaciones: 
  • La probabilidad de que existan citaciones entre dos ciudades decrece con la distancia entre ellas.
  • Tanto las redes de colaboración como de citaciones tiene normalmente su origen en el entorno (espacial) próximo. En general, colaboraciones y citaciones entre lugares distantes decrecen con la distancia. Hay que matizar que entre dos lugares distantes es más probable que existan citaciones a que se colabore.
Los autores también exploran la relación entre impacto y subvención, en cuanto que el número de citaciones escala linealmente con la cantidad media subvencionada por investigador. Sin embargo, detectan un numero mágico: 100.000 dolares. Si un país gasta de media por debajo de ese umbral, es imposible que dicho país consiga que el numero medio de citaciones por artículo sea mejor que la media mundial. Si se superó el umbral de 100.00 dolares, el éxito tampoco esta asegurado pero la posibilidad de realizar un mayor el impacto científico que la media mundial está sobre la mesa. 

viernes, 10 de abril de 2015

Los deberes en primaria son tan tóxicos e inútiles como las reuniones en el trabajo

Odio las reuniones. Odio las reuniones que únicamente sirven para concretar otras reuniones. Pero eso es otra historia que la contaré otro día. 

Lo que me trae en este post es, tal como ocurre con las reuniones, lo tóxico que pueden llegar a ser los deberes para niños de primaria. Nos lo cuenta este post, que reproduce enteramente una carta abierta de un profesor de secundaria con el valiente título de "Yo Confieso". Ni que decir tiene que otra educación es posible, una que sea mucho más creativa que la actual y menos sujetas a las normas de antaño.