alt text Photo by Fabrizio Verrecchia on Unsplash

1. Introducción

En este artículo analizaremos los desplazamientos interurbanos de los estudiantes de la Universidad Rey Juan Carlos (URJC), utilizando para ellos los datos abiertos que la URJC ha publicado en UniversiDATA.

1.1 Objetivos

Lo primero que debemos hacer es marcarnos el destino: ¿A dónde queremos llegar? ¿Qué tipo de preguntas queremos responder? En el caso que nos ocupa son las siguientes:

  • ¿Cómo de prevalentes son los desplazamientos interurbanos para ir a clase en la URJC?

  • ¿Cuál es el perfil de esos desplazamientos?

    • ¿Desde qué municipios?
    • ¿La procedencia interurbana de los estudiantes está muy concentrada o muy dispersa?
    • ¿Qué distancia tienen que recorrer?
  • ¿Hay diferencias en las respuestas a las preguntas anteriores entre los distintos campus?

1.2 Recursos de datos a utilizar

Es esencial, antes de plantear cualquier análisis de datos, conocer bien la estructura y semántica de los datasets que se van a utilizar.
En este caso, para llevar a cabo nuestro análisis utilizaremos los siguientes recursos, que nos proporcionan toda la información de base que necesitaremos para hacer nuestro análisis:

  • Dataset de matriculas (curso 2018-19) : En este dataset disponemos tanto del centro en el que estudia cada estudiante, como del municipio de residencia durante el curso. Contamos adicionalmente con los datos de geolocalización de cada municipio, fruto de los servicios de enriquecimiento de datos de UniversiDATA. Podemos consultar la descripción detallada de este dataset en el diccionario de datos de la especificación Núcleo Común que propone UniversiDATA.

  • Dataset de centros (curso 2018-19) : En este dataset disponemos de todos los centros de estudio de la UJRC, incluyendo el campus y el municipio en el que está ubicado cada uno. Contamos adicionalmente con los datos de geolocalización de cada centro, fruto de los servicios de enriquecimiento de datos de UniversiDATA. Podemos consultar la descripción detallada de este dataset en el diccionario de datos de la especificación Núcleo Común que propone UniversiDATA.

Es muy importante tener en cuenta que el dataset de matriculas está anonimizado, lo cual tiene ciertas implicaciones que hay que conocer para poder hacer un análisis correcto. En concreto, hay que consultar cual es el “diferencial de privacidad”, es decir, las posibles pérdidas que los datos hayan podido sufrir como consecuencia de los procesos de anonimizacion. Consultando la documentación, vemos que en nuestro caso:

  1. Los conjuntos de variables que vamos a utilizar (El “centro” y las variables de “domicilio durante el curso”) conservan su relación intacta (puesto que el “centro” es una variable “pivote” en los procesos de anonimización). Ningún problema en este aspecto entonces.

  2. Puede haber una pérdida de información en la variable “centro”, si ha sido necesario eliminar “grupos pequeños” en los procesos de Anonimización. Analizando los contenidos de la variable (“cod_centro”), vemos que efectivamente en 125 de los 51.809 registros, la variable “cod_centro” aparece vacía. Consideramos la pérdida despreciable (~0,2%) para los resultados de nuestro análisis.

2. No tan deprisa: el pre-análisis de los datos de partida

Tras informarnos de la estructura y semántica de los datasets, es necesario hacer un análisis exploratorio de los contenidos en los mismos, con el fin de conocer la realidad de los datos a los que nos enfrentamos, sobre todo para poder detectar posibles peculiaridades, anomalías o errores que pudieran afectar a la calidad de los resultados de nuestro análisis. Salvo en datasets muy muy sencillos, lo habitual es que siempre haya peculiaridades que hay que tener en cuenta. Y en ese caso, el dataset de matriculados es muy muy grande (51.809 registros y 79 columnas dan un total de 4.092.911 datos)…

En este caso, tras ese análisis inicial hemos identificado tres anomalías a tener en cuenta durante el análisis, que pasamos a exponer a continuación.

2.1 Anomalía 1: “Este no es el Arroyomolinos que estáis buscando

Una primera inspección a los datos hace que nos llame poderosamente la atención uno de los municipos de procedencia: Arroyomolinos.
A primera vista no es un dato que debería llamar la atención en absoluto: Arroyomolinos es un municipio que linda con Móstoles, donde está ubicado uno de los principales campus de la URJC, por lo que parece lógico que sea un lugar en el que residan estudiantes durante el curso. Sin embargo, al calcular las distancias entre los municipios de residencia y los centros de estudios, un dato destaca poderosamente: los estudiantes que constan afincados en Arroyomolinos aparecen a unos 233 kilómetros de distancia de sus centros de estudios en el campus de Móstoles.
Pero… ¡si son municipios limítrofes! ¿Cómo es posible? ¿Ha fallado la geolocalización?.

No. A poco que uno investigue, el origen del problema salta a la vista: en España existen dos “Arroyomolinos”: uno en Madrid… ¡y otro en Cáceres!
Todos los estudiantes que aparecen asociados a Arroyomolinos en el dataset lo están al Arroyomolinos de Cáceres. Esta realidad constituye nuestra primera anomalía:

Anomalía 1

Con toda probabilidad a los estudiantes que especificaron Arroyomolinos (Madrid) como municipio de residencia durante el curso, se les ha asignando sistemática y erróneamente Arroyomolinos (Cáceres).

Dando por buena esta hipótesis, corregimos los datos antes de llevar a cabo nuestro análisis, e informamos a la Universidad para que compruebe y solvente - en su caso - este error en origen (he aquí, por cierto, un ejemplo perfecto de una de las ventajas de la apertura de datos: la mejora de la calidad de los mismos fruto del análisis por parte de terceros).

2.2 Anomalía 2: Municipios extranjeros

Durante el preanálisis también detectamos dos “municipios” especiales denominados “Municipio extranjero perteneciente a la U.E.” y “Municipio extranjero NO perteneciente a la U.E.”. Esto constituye la segunda anomalía a tener en cuenta de cara a nuestro análisis:

Anomalía 2

En 2.013 casos en total, el estudiante no ha facilitado un municipio de residencia durante el curso en territorio español, sino una referencia genérica a “Municipio extranjero”, por lo que evidentemente ni disponemos de geolocalización, ni podemos usarlo para nuestro análisis.

Como consecuencia, elimimamos estos casos de nuestro conjunto de análisis, obviando en nuestro estudio 2.013 matrículas de estudiantes de un total de 51.809, es decir, apenas un 3.8% aproximadamente.

2.3 Anomalía 3: ¡¿Tan lejos?!

Por último, hemos detectado casos en los que la información que los estudiantes facilitan como “Domicilio durante el curso” no parece ser totalmente fiable. Sospechamos tal cosa porque, a pesar que la URJC tiene todos sus campus ubicados en la comunidad de Madrid, nos aparecen “domicilios durante el curso” dispersos por toda la geografía española, lo que constituye nuestra tercera anomalía:

Anomalía 3

Existen casos en los que el municipio reportado por el estudiante como municipio en el que residirá durante el curso no parece creíble, dada la distancia a su centro de estudios.

Como dudamos de que nadie se haga a diario cientos de kilómetros para ir a clase, lo más normal es que estos casos atiendan a una de estas dos razones:

  1. Se trata de matrículas de estudiantes de titulaciones “online”. En cuyo caso no nos interesan para este estudio.

  2. Se trata de un dato falso. Posiblemente, en el momento de la matrícula el estudiante aun no sabía dónde iba a residir durante el curso, y puso su domicilio familiar como “mal menor”.

Por tanto, en determinadas partes de nuestro análisis sólo tendremos en cuenta aquellos datos de “residencia durante el curso” ubicados a menos de 100 km. de distancia del centro de estudios correspondiente.

2.4 Aclaración: Las distancias, en línea recta

Por simplicidad, el cálculo de distancias que se ha llevado a cabo en este análisis ha considerado la distancia geográfica más corta entre los municipios implicados, es decir, la distancia en línea recta, y por tanto no son distancias reales considerando las vías de los medios de transporte, sino una “aproximación razonable” que siempre actuará como cota inferior de las distancias reales, es decir, podemos interpretarlas como que al menos los estudiantes tendrán que desplazarse esa distancia.

3. ¿Cómo de prevalentes son los desplazamientos interurbanos para ir a clase en la URJC?

El cálculo es sencillo: un estudiante debe hacer un desplazamiento interurbano si el municipio en el que está su domicilio durante el curso es distinto al municipio en el que está el centro en el que realiza sus estudios. Partiendo de esta definición obtenemos el siguiente dato:

HALLAZGO 1:

En el curso 2018-19, el 73.4% de las matrículas estaban asociadas a estudiantes de la URJC que requirieron desplazamientos interurbanos para acudir a sus centros de estudios.

4. ¿Cómo son esos desplazamientos? ¿Hay diferencias entre los diferentes campus?

Antes de caracterizar los desplazamientos, empecemos analizando si existen diferencias entre los campus. Calculemos el porcentaje de matrículas de estudiantes con desplazamiento interurbano en cada uno de ellos:

Campus Nº matrículas Nº Interurbanas % Interurbanas
Alcorcón 3923 3504 89.3
Móstoles 11975 10688 89.3
Fuenlabrada 12414 10668 85.9
Aranjuez 2448 1954 79.8
Madrid 13703 5827 42.5

Los datos de esta tabla nos revelan claramente nuestro segundo hallazgo:

HALLAZGO 2:

Existe una enorme diferencia en el porcentaje de matrículas de estudiantes con desplazamientos interurbanos entre el campus de Madrid (42,5%) y los restantes (entre 79%-89%)

Analicemos ahora si existen diferencias entre los campus en la distribución de los desplazamientos. Por los motivos expuestos en la Anomalía 3, vamos a analizar sólo los datos relativos a municipios en un rango de 100 km respecto al centro de estudio correspondiente. Representaremos las distancias a las que están los municipios durante el curso de los estudiantes en diagramas de caja separados por campus (ver este enlace para una explicación sobre cómo interpretar los diagramas de cajas.) :

Los diagramas de cajas nos permiten obtener nuestro tercer hallazgo:

HALLAZGO 3:

En general, los estudiantes con desplazamientos más largos son los del campus de Aranjuez, seguidos en segundo lugar de los del campus de Madrid, y en tercer lugar por los de los campus de la periferia sur de Madrid: Fuenlabrada, Móstoles y Alcorcón (más similares entre sí). Las diferencias entre estos tres grupos son notables.

Puesto que los dos últimos hallazgos apuntan a diferencias relevantes entre los distintos campus, analicemos uno a uno y con más detalle sus datos.

4.1 Campus de Aranjuez

En la siguiente tabla interactiva se muestran todos los municipios que implican traslados interurbanos hasta centros ubicados en el campus de Aranjuez. La tabla está ordenada por importancia del municipio en términos de aporte de matrículas.

El siguiente mapa interactivo permite visualizar todas las poblaciones que aportan estudiantes a centros del campus de Aranjuez (localizado por el marcador en el mapa). El tamaño de los círculos es proporcional al número de matrículas que aporta el municipio. Pasando el ratón por encima, se nos muestran el nombre, el nº de matrículas que aporta, y la distancia media al centro de estudios de esos estudiantes.

4.2 Campus de Fuenlabrada

En la siguiente tabla interactiva se muestran todos los municipios que implican traslados interurbanos hasta centros ubicados en el campus de Fuenlabrada. La tabla está ordenada por importancia del municipio en términos de aporte de matrículas.

El siguiente mapa interactivo permite visualizar todas las poblaciones que aportan estudiantes a centros del campus de Fuenlabrada (localizado por el marcador en el mapa). El tamaño de los círculos es proporcional al número de matrículas que aporta el municipio. Pasando el ratón por encima, se nos muestran el nombre, el nº de matrículas que aporta, y la distancia media al centro de estudios de esos estudiantes.

4.3 Campus de Alcorcón

En la siguiente tabla interactiva se muestran todos los municipios que implican traslados interurbanos hasta centros ubicados en el campus de Alcorcón. La tabla está ordenada por importancia del municipio en términos de aporte de matrículas.

El siguiente mapa interactivo permite visualizar todas las poblaciones que aportan estudiantes a centros del campus de Alcorcón (localizado por el marcador en el mapa). El tamaño de los círculos es proporcional al número de matrículas que aporta el municipio. Pasando el ratón por encima, se nos muestran el nombre, el nº de matrículas que aporta, y la distancia media al centro de estudios de esos estudiantes.

4.4 Campus de Móstoles

En la siguiente tabla interactiva se muestran todos los municipios que implican traslados interurbanos hasta centros ubicados en el campus de Móstoles. La tabla está ordenada por importancia del municipio en términos de aporte de matrículas.

El siguiente mapa interactivo permite visualizar todas las poblaciones que aportan estudiantes a centros del campus de Móstoles (localizado por el marcador en el mapa). El tamaño de los círculos es proporcional al número de matrículas que aporta el municipio. Pasando el ratón por encima, se nos muestran el nombre, el nº de matrículas que aporta, y la distancia media al centro de estudios de esos estudiantes.

4.5 Campus de Madrid

En la siguiente tabla interactiva se muestran todos los municipios que implican traslados interurbanos hasta centros ubicados en el campus de Madrid. La tabla está ordenada por importancia del municipio en términos de aporte de matrículas.

El siguiente mapa interactivo permite visualizar todas las poblaciones que aportan estudiantes a centros del campus de Madrid (localizado por el marcador en el mapa). El tamaño de los círculos es proporcional al número de matrículas que aporta el municipio. Pasando el ratón por encima, se nos muestran el nombre, el nº de matrículas que aporta, y la distancia media al centro de estudios de esos estudiantes.

5. Para terminar…

En este análisis hemos sacado partido de los datos abiertos geolocalizados para obtener y visualizar una interesante información sobre la cantidad y naturaleza de los desplazamientos interurbanos que los estudiantes de la URJC tienen que hacer para acudir a sus centros de estudios.

No olvide que puede plantearnos cualquier duda, corrección, comentario, petición, etc. en los comentarios a continuación, para los cuales no es necesario registro previo

¡Gracias por su atención!