En este artículo analizaremos el nivel de lo que comúnmente se conoce como “endogamia” en la Universidad. Tradicionalmente, la endogamia se entiende como el porcentaje del PDI que imparte docencia en la misma universidad donde leyó su tesis doctoral. En nuestro caso, y aprovechando que los los datos están disponibles, ampliaremos ligeramente esa definición para incluir también al PI que investiga en la misma Universidad en la que leyó su tésis doctoral.
El análisis lo haremos para la Universidad Rey Juan Carlos (URJC), utilizando para ello los datos abiertos que la URJC ha publicado en UniversiDATA.
Lo primero que debemos hacer es marcarnos el destino: ¿A dónde queremos llegar? ¿Qué tipo de preguntas queremos responder? En el caso que nos ocupa las preguntas son sencillas:
¿Cual es el nivel de “endogamia” en la URJC? ¿Cómo está evolucionando?
¿En qué instituciones obtuvieron su doctorado los doctores de la URJC?
Es esencial, antes de plantear cualquier análisis de datos, conocer bien la estructura y semántica de los datasets que se van a utilizar.
En este caso, para llevar a cabo nuestro análisis utilizaremos los siguientes recursos, que nos proporcionan toda la información de base que necesitaremos para hacer nuestro análisis:
Datasets de Personal Docente e Investigador (Años 2017 y 2018) : En este dataset disponemos del departamento de cada docente, si tiene o no título de doctorado, y en caso afirmativo en qué Universidad lo obtuvo. Podemos consultar la descripción detallada de este dataset en el diccionario de datos de la especificación “Núcleo Común” que propone UniversiDATA.
Datasets de Personal exclusivamente Investigador (Años 2017 y 2018) : En este dataset disponemos del departamento de cada investigador, si tiene o no título de doctorado, y en caso afirmativo en qué Universidad lo obtuvo. Podemos consultar la descripción detallada de este dataset en el diccionario de datos de la especificación “Núcleo Común” que propone UniversiDATA.
Tras informarnos de la estructura y semántica de los datasets, es necesario hacer un análisis exploratorio de los contenidos en los mismos, con el fin de conocer la realidad de los datos a los que nos enfrentamos, sobre todo para poder detectar posibles peculiaridades, anomalías o errores que pudieran afectar a la calidad de los resultados de nuestro análisis. Salvo en datasets muy muy sencillos, lo habitual es que siempre haya peculiaridades que hay que tener en cuenta.
En este caso, tras ese análisis inicial hemos identificado dos “anomalías” a tener en cuenta durante el análisis, que pasamos a exponer a continuación.
Es muy importante tener en cuenta que - para poder ser ofrecidos al máximo nivel de detalle - estos datasets están anonimizados, lo cual tiene ciertas implicaciones que hay que conocer para poder hacer un análisis correcto. En concreto, hay que consultar cual es el “diferencial de privacidad”, es decir, las posibles pérdidas que los datos hayan podido sufrir como consecuencia de los procesos de anonimizacion. Consultando la documentación, vemos que en nuestro caso:
Los conjuntos de variables que vamos a utilizar (el “departamento” y las variables relacionadas con el doctorado obtenido) conservan su relación intacta (puesto que el “departamento” es la variable “pivote” en los procesos de anonimización). Ningún problema en este aspecto entonces.
Puede haber una pérdida de información en la variable “departamento”, si ha sido necesario eliminar “grupos pequeños” en los procesos de Anonimización. Analizando los contenidos de la variable que contiene el departamento (“cod_unidad_responsable”) en los datasets, vemos que efectivamente hay una pérdida de información en el caso del personal exclusivamente investigador, lo cual constituye nuestra anomalía nº 1:
Impacto de los procesos de anonimización en nuestro estudio:
La decisión que tomaremos será incluir estos datos “sin departamento” en el análisis, asociándolos a un hipotético “departamento desconocido”.
Al analizar el campo que contiene la Universidad en la que cada profesor o investigador ha obtenido el doctorado, vemos que en algunos casos (pocos), esta no consta. Veamos en cuántos casos ocurre esto:
Tipo Personal | Nº empleados | Con doctorado | Sin especificar Universidad | Porcentaje |
---|---|---|---|---|
P.D.I. | 1996 | 1352 | 32 | 2.37% |
P.I. | 253 | 41 | 6 | 14.63% |
TOTAL | 2249 | 1393 | 38 | 2.73% |
Tipo Personal | Nº empleados | Con doctorado | Sin especificar Universidad | Porcentaje |
---|---|---|---|---|
P.D.I. | 2174 | 1414 | 8 | 0.57% |
P.I. | 305 | 54 | 21 | 38.89% |
TOTAL | 2479 | 1468 | 29 | 1.98% |
Del total de 2.861 casos de doctores reportados en 2017 y 2018, tanto en los colectivos de P.D.I. como de P.I., en 67 de ellos (un 2,3%) no se especifica la Universidad en la que tal doctorado se ha obtenido, por lo que no es posible computar estos casos en el cálculo del nivel de endogamia.
De cara a nuestro análisis de evolución, excluiremos estos casos de los cálculos, y añadiremos a las conclusiones finales la incertidumbre que esta ausencia parcial de información implica.
El cálculo es sencillo: consiste en calcular el porcentaje de doctores que han obtenido su doctorado en la propia URJC. Los resultados obtenidos por colectivo y año son los siguientes:
Tipo Personal | Nº empleados | Nº Doctores (sólo si especifican Univ. de doctorado) | Nº doctores de la URJC | Endogamia |
---|---|---|---|---|
P.D.I. | 1996 | 1320 | 452 | 34.24% |
P.I. | 253 | 35 | 12 | 34.29% |
TOTAL | 2249 | 1355 | 464 | 34.24% |
Tipo Personal | Nº empleados | Nº Doctores (sólo si especifican Univ. de doctorado) | Nº doctores de la URJC | Endogamia |
---|---|---|---|---|
P.D.I. | 2174 | 1406 | 456 | 32.43% |
P.I. | 305 | 33 | 15 | 45.45% |
TOTAL | 2479 | 1439 | 471 | 32.73% |
Vemos en las tablas previas que el nivel global de endogamia fue del 34,2% en 2017 y del 32,7% en 2018. Sin embargo, debemos tener en cuenta que, como explicamos en la Anomalía 2, hay un pequeño porcentaje de profesores doctores que no se han considerado en los cálculos porque no se especifica la Universidad en la que se doctoraron.
Incluyendo estos datos en el resultado, y calculando los dos casos extremos:
obtenemos nuestro Hallazgo 1:
HALLAZGO 1:
El nivel de endogamia global (PDI+PI) de la URJC estuvo en 2017 entre el 32,4% y el 35,1%, y en 2018 entre el 32,1% y el 34,1%, por lo tanto:
La siguiente tabla interactiva nos muestra el ranking de Universidades de proveniencia de los doctores de la URJC para el año 2018:
La tabla nos revela nuestro segundo hallazgo:HALLAZGO 2:
La Universidad Complutense de Madrid es, con diferencia, la Universidad de origen del mayor nº de PDI/PI doctores de la URJC que no obtuvieron su título de doctor en la propia URJC.
En este análisis hemos utilizado los datasets con información detallada tanto de personal docente como de personal investigador de la URJC en los años 2017 y 2018 para calcular un indicador relevante como es el nivel de “endogamia” institucional y obtener las instituciones en las que los doctores de la URJC obtuvieron sus doctorados.
No olvide que puede plantearnos cualquier duda, corrección, comentario, petición, etc. en los comentarios a continuación, para los cuales no es necesario registro previo
¡Gracias por su atención!