Análisis de Endogamia

Photo by Jasmine Coro on Unsplash

1. Introducción

En este artículo analizaremos el nivel de lo que comúnmente se conoce como “endogamia” en la Universidad. Tradicionalmente, la endogamia se entiende como el porcentaje del PDI que imparte docencia en la misma universidad donde leyó su tesis doctoral. En nuestro caso, y aprovechando que los los datos están disponibles, ampliaremos ligeramente esa definición para incluir también al PI que investiga en la misma Universidad en la que leyó su tésis doctoral.

El análisis lo haremos para la Universidad Rey Juan Carlos (URJC), utilizando para ello los datos abiertos que la URJC ha publicado en UniversiDATA.

1.1 Objetivos

Lo primero que debemos hacer es marcarnos el destino: ¿A dónde queremos llegar? ¿Qué tipo de preguntas queremos responder? En el caso que nos ocupa las preguntas son sencillas:

¿Cual es el nivel de “endogamia” en la URJC? ¿Cómo está evolucionando?
¿En qué instituciones obtuvieron su doctorado los doctores de la URJC?

1.2 Recursos de datos a utilizar

Es esencial, antes de plantear cualquier análisis de datos, conocer bien la estructura y semántica de los datasets que se van a utilizar.
En este caso, para llevar a cabo nuestro análisis utilizaremos los siguientes recursos, que nos proporcionan toda la información de base que necesitaremos para hacer nuestro análisis:

Datasets de Personal Docente e Investigador (Años 2017 y 2018) : En este dataset disponemos del departamento de cada docente, si tiene o no título de doctorado, y en caso afirmativo en qué Universidad lo obtuvo. Podemos consultar la descripción detallada de este dataset en el diccionario de datos de la especificación “Núcleo Común” que propone UniversiDATA.
Datasets de Personal exclusivamente Investigador (Años 2017 y 2018) : En este dataset disponemos del departamento de cada investigador, si tiene o no título de doctorado, y en caso afirmativo en qué Universidad lo obtuvo. Podemos consultar la descripción detallada de este dataset en el diccionario de datos de la especificación “Núcleo Común” que propone UniversiDATA.

2. No tan deprisa: el pre-análisis de los datos de partida

Tras informarnos de la estructura y semántica de los datasets, es necesario hacer un análisis exploratorio de los contenidos en los mismos, con el fin de conocer la realidad de los datos a los que nos enfrentamos, sobre todo para poder detectar posibles peculiaridades, anomalías o errores que pudieran afectar a la calidad de los resultados de nuestro análisis. Salvo en datasets muy muy sencillos, lo habitual es que siempre haya peculiaridades que hay que tener en cuenta.

En este caso, tras ese análisis inicial hemos identificado dos “anomalías” a tener en cuenta durante el análisis, que pasamos a exponer a continuación.

2.1 Anomalía 1: ¿Tiene impacto la anonimización para este estudio?

Es muy importante tener en cuenta que - para poder ser ofrecidos al máximo nivel de detalle - estos datasets están anonimizados, lo cual tiene ciertas implicaciones que hay que conocer para poder hacer un análisis correcto. En concreto, hay que consultar cual es el “diferencial de privacidad”, es decir, las posibles pérdidas que los datos hayan podido sufrir como consecuencia de los procesos de anonimizacion. Consultando la documentación, vemos que en nuestro caso:

Los conjuntos de variables que vamos a utilizar (el “departamento” y las variables relacionadas con el doctorado obtenido) conservan su relación intacta (puesto que el “departamento” es la variable “pivote” en los procesos de anonimización). Ningún problema en este aspecto entonces.
Puede haber una pérdida de información en la variable “departamento”, si ha sido necesario eliminar “grupos pequeños” en los procesos de Anonimización. Analizando los contenidos de la variable que contiene el departamento (“cod_unidad_responsable”) en los datasets, vemos que efectivamente hay una pérdida de información en el caso del personal exclusivamente investigador, lo cual constituye nuestra anomalía nº 1:

Anomalía 1

Impacto de los procesos de anonimización en nuestro estudio:

En los datos de P.I. del año 2017, falta el dato del departamento en 13 de los 253 registros (pérdida del 5% de los valores, aproximadamente)
En los datos de P.I. del año 2018, falta el dato del departamento en 33 de los 305 registros (pérdida del 11% de los valores, aproximadamente)

La decisión que tomaremos será incluir estos datos “sin departamento” en el análisis, asociándolos a un hipotético “departamento desconocido”.

2.2 Anomalía 2: ¿En qué Universidad se doctoró?

Al analizar el campo que contiene la Universidad en la que cada profesor o investigador ha obtenido el doctorado, vemos que en algunos casos (pocos), esta no consta. Veamos en cuántos casos ocurre esto:

AÑO 2017: Doctores para los que no se especifica la Universidad de obtención del Doctorado.

Tipo Personal	Nº empleados	Con doctorado	Sin especificar Universidad	Porcentaje
P.D.I.	1996	1352	32	2.37%
P.I.	253	41	6	14.63%
TOTAL	2249	1393	38	2.73%

AÑO 2018: Doctores para los que no se especifica la Universidad de obtención del Doctorado.

Tipo Personal	Nº empleados	Con doctorado	Sin especificar Universidad	Porcentaje
P.D.I.	2174	1414	8	0.57%
P.I.	305	54	21	38.89%
TOTAL	2479	1468	29	1.98%

Por tanto, la segunda anomalía que tenemos que tener en cuenta para nuestro análisis es la siguiente:

Anomalía 2

Del total de 2.861 casos de doctores reportados en 2017 y 2018, tanto en los colectivos de P.D.I. como de P.I., en 67 de ellos (un 2,3%) no se especifica la Universidad en la que tal doctorado se ha obtenido, por lo que no es posible computar estos casos en el cálculo del nivel de endogamia.

De cara a nuestro análisis de evolución, excluiremos estos casos de los cálculos, y añadiremos a las conclusiones finales la incertidumbre que esta ausencia parcial de información implica.

3. ¿Cuál es el nivel de endogamia en la URJC?

El cálculo es sencillo: consiste en calcular el porcentaje de doctores que han obtenido su doctorado en la propia URJC. Los resultados obtenidos por colectivo y año son los siguientes:

AÑO 2017: Nivel de “endogamia” % de doctores que han obtenido su doctorado en la URJC.

Tipo Personal	Nº empleados	Nº Doctores (sólo si especifican Univ. de doctorado)	Nº doctores de la URJC	Endogamia
P.D.I.	1996	1320	452	34.24%
P.I.	253	35	12	34.29%
TOTAL	2249	1355	464	34.24%

AÑO 2018: Nivel de “endogamia” % de doctores que han obtenido su doctorado en la URJC.

Tipo Personal	Nº empleados	Nº Doctores (sólo si especifican Univ. de doctorado)	Nº doctores de la URJC	Endogamia
P.D.I.	2174	1406	456	32.43%
P.I.	305	33	15	45.45%
TOTAL	2479	1439	471	32.73%

Vemos en las tablas previas que el nivel global de endogamia fue del 34,2% en 2017 y del 32,7% en 2018. Sin embargo, debemos tener en cuenta que, como explicamos en la Anomalía 2, hay un pequeño porcentaje de profesores doctores que no se han considerado en los cálculos porque no se especifica la Universidad en la que se doctoraron.

Incluyendo estos datos en el resultado, y calculando los dos casos extremos:

Peor caso: todos los doctores cuya universidad de doctorado ignoramos se doctoraron en la URJC
Mejor caso: ninguno de los doctores cuya universidad de doctorado ignoramos se doctoraron en la URJC

obtenemos nuestro Hallazgo 1:

HALLAZGO 1:

El nivel de endogamia global (PDI+PI) de la URJC estuvo en 2017 entre el 32,4% y el 35,1%, y en 2018 entre el 32,1% y el 34,1%, por lo tanto:

Se trata de un nivel de endogamia muy por debajo de la media española del curso 2017-18, situada en un 68,8% (ver informe CYD 2018)
Aún así, los datos apuntan a que entre el 2017 y el 2018 se redujo levemente

4. ¿De qué Universidades provienen los doctores de la URJC?

La siguiente tabla interactiva nos muestra el ranking de Universidades de proveniencia de los doctores de la URJC para el año 2018:

La tabla nos revela nuestro segundo hallazgo:

HALLAZGO 2:

La Universidad Complutense de Madrid es, con diferencia, la Universidad de origen del mayor nº de PDI/PI doctores de la URJC que no obtuvieron su título de doctor en la propia URJC.

5. Para terminar…

En este análisis hemos utilizado los datasets con información detallada tanto de personal docente como de personal investigador de la URJC en los años 2017 y 2018 para calcular un indicador relevante como es el nivel de “endogamia” institucional y obtener las instituciones en las que los doctores de la URJC obtuvieron sus doctorados.

No olvide que puede plantearnos cualquier duda, corrección, comentario, petición, etc. en los comentarios a continuación, para los cuales no es necesario registro previo

¡Gracias por su atención!