alt text Photo by Jasmine Coro on Unsplash

1. Introducción

En este artículo analizaremos el nivel de lo que comúnmente se conoce como “endogamia” en la Universidad. Tradicionalmente, la endogamia se entiende como el porcentaje del PDI que imparte docencia en la misma universidad donde leyó su tesis doctoral. En nuestro caso, y aprovechando que los los datos están disponibles, ampliaremos ligeramente esa definición para incluir también al PI que investiga en la misma Universidad en la que leyó su tésis doctoral.

El análisis lo haremos para la Universidad Rey Juan Carlos (URJC), utilizando para ello los datos abiertos que la URJC ha publicado en UniversiDATA.

1.1 Objetivos

Lo primero que debemos hacer es marcarnos el destino: ¿A dónde queremos llegar? ¿Qué tipo de preguntas queremos responder? En el caso que nos ocupa las preguntas son sencillas:

  • ¿Cual es el nivel de “endogamia” en la URJC? ¿Cómo está evolucionando?

  • ¿En qué instituciones obtuvieron su doctorado los doctores de la URJC?

1.2 Recursos de datos a utilizar

Es esencial, antes de plantear cualquier análisis de datos, conocer bien la estructura y semántica de los datasets que se van a utilizar.
En este caso, para llevar a cabo nuestro análisis utilizaremos los siguientes recursos, que nos proporcionan toda la información de base que necesitaremos para hacer nuestro análisis:

2. No tan deprisa: el pre-análisis de los datos de partida

Tras informarnos de la estructura y semántica de los datasets, es necesario hacer un análisis exploratorio de los contenidos en los mismos, con el fin de conocer la realidad de los datos a los que nos enfrentamos, sobre todo para poder detectar posibles peculiaridades, anomalías o errores que pudieran afectar a la calidad de los resultados de nuestro análisis. Salvo en datasets muy muy sencillos, lo habitual es que siempre haya peculiaridades que hay que tener en cuenta.

En este caso, tras ese análisis inicial hemos identificado dos “anomalías” a tener en cuenta durante el análisis, que pasamos a exponer a continuación.

2.1 Anomalía 1: ¿Tiene impacto la anonimización para este estudio?

Es muy importante tener en cuenta que - para poder ser ofrecidos al máximo nivel de detalle - estos datasets están anonimizados, lo cual tiene ciertas implicaciones que hay que conocer para poder hacer un análisis correcto. En concreto, hay que consultar cual es el “diferencial de privacidad”, es decir, las posibles pérdidas que los datos hayan podido sufrir como consecuencia de los procesos de anonimizacion. Consultando la documentación, vemos que en nuestro caso:

  1. Los conjuntos de variables que vamos a utilizar (el “departamento” y las variables relacionadas con el doctorado obtenido) conservan su relación intacta (puesto que el “departamento” es la variable “pivote” en los procesos de anonimización). Ningún problema en este aspecto entonces.

  2. Puede haber una pérdida de información en la variable “departamento”, si ha sido necesario eliminar “grupos pequeños” en los procesos de Anonimización. Analizando los contenidos de la variable que contiene el departamento (“cod_unidad_responsable”) en los datasets, vemos que efectivamente hay una pérdida de información en el caso del personal exclusivamente investigador, lo cual constituye nuestra anomalía nº 1:

Anomalía 1

Impacto de los procesos de anonimización en nuestro estudio:

  • En los datos de P.I. del año 2017, falta el dato del departamento en 13 de los 253 registros (pérdida del 5% de los valores, aproximadamente)
  • En los datos de P.I. del año 2018, falta el dato del departamento en 33 de los 305 registros (pérdida del 11% de los valores, aproximadamente)

La decisión que tomaremos será incluir estos datos “sin departamento” en el análisis, asociándolos a un hipotético “departamento desconocido”.

2.2 Anomalía 2: ¿En qué Universidad se doctoró?

Al analizar el campo que contiene la Universidad en la que cada profesor o investigador ha obtenido el doctorado, vemos que en algunos casos (pocos), esta no consta. Veamos en cuántos casos ocurre esto:

AÑO 2017: Doctores para los que no se especifica la Universidad de obtención del Doctorado.
Tipo Personal Nº empleados Con doctorado Sin especificar Universidad Porcentaje
P.D.I. 1996 1352 32 2.37%
P.I. 253 41 6 14.63%
TOTAL 2249 1393 38 2.73%
AÑO 2018: Doctores para los que no se especifica la Universidad de obtención del Doctorado.
Tipo Personal Nº empleados Con doctorado Sin especificar Universidad Porcentaje
P.D.I. 2174 1414 8 0.57%
P.I. 305 54 21 38.89%
TOTAL 2479 1468 29 1.98%
Por tanto, la segunda anomalía que tenemos que tener en cuenta para nuestro análisis es la siguiente:
Anomalía 2

Del total de 2.861 casos de doctores reportados en 2017 y 2018, tanto en los colectivos de P.D.I. como de P.I., en 67 de ellos (un 2,3%) no se especifica la Universidad en la que tal doctorado se ha obtenido, por lo que no es posible computar estos casos en el cálculo del nivel de endogamia.

De cara a nuestro análisis de evolución, excluiremos estos casos de los cálculos, y añadiremos a las conclusiones finales la incertidumbre que esta ausencia parcial de información implica.

3. ¿Cuál es el nivel de endogamia en la URJC?

El cálculo es sencillo: consiste en calcular el porcentaje de doctores que han obtenido su doctorado en la propia URJC. Los resultados obtenidos por colectivo y año son los siguientes:

AÑO 2017: Nivel de “endogamia” % de doctores que han obtenido su doctorado en la URJC.
Tipo Personal Nº empleados Nº Doctores (sólo si especifican Univ. de doctorado) Nº doctores de la URJC Endogamia
P.D.I. 1996 1320 452 34.24%
P.I. 253 35 12 34.29%
TOTAL 2249 1355 464 34.24%
AÑO 2018: Nivel de “endogamia” % de doctores que han obtenido su doctorado en la URJC.
Tipo Personal Nº empleados Nº Doctores (sólo si especifican Univ. de doctorado) Nº doctores de la URJC Endogamia
P.D.I. 2174 1406 456 32.43%
P.I. 305 33 15 45.45%
TOTAL 2479 1439 471 32.73%

Vemos en las tablas previas que el nivel global de endogamia fue del 34,2% en 2017 y del 32,7% en 2018. Sin embargo, debemos tener en cuenta que, como explicamos en la Anomalía 2, hay un pequeño porcentaje de profesores doctores que no se han considerado en los cálculos porque no se especifica la Universidad en la que se doctoraron.

Incluyendo estos datos en el resultado, y calculando los dos casos extremos:

obtenemos nuestro Hallazgo 1:

HALLAZGO 1:

El nivel de endogamia global (PDI+PI) de la URJC estuvo en 2017 entre el 32,4% y el 35,1%, y en 2018 entre el 32,1% y el 34,1%, por lo tanto:

  • Se trata de un nivel de endogamia muy por debajo de la media española del curso 2017-18, situada en un 68,8% (ver informe CYD 2018)
  • Aún así, los datos apuntan a que entre el 2017 y el 2018 se redujo levemente

4. ¿De qué Universidades provienen los doctores de la URJC?

La siguiente tabla interactiva nos muestra el ranking de Universidades de proveniencia de los doctores de la URJC para el año 2018:

La tabla nos revela nuestro segundo hallazgo:

HALLAZGO 2:

La Universidad Complutense de Madrid es, con diferencia, la Universidad de origen del mayor nº de PDI/PI doctores de la URJC que no obtuvieron su título de doctor en la propia URJC.

5. Para terminar…

En este análisis hemos utilizado los datasets con información detallada tanto de personal docente como de personal investigador de la URJC en los años 2017 y 2018 para calcular un indicador relevante como es el nivel de “endogamia” institucional y obtener las instituciones en las que los doctores de la URJC obtuvieron sus doctorados.

No olvide que puede plantearnos cualquier duda, corrección, comentario, petición, etc. en los comentarios a continuación, para los cuales no es necesario registro previo

¡Gracias por su atención!