Desplegar web scraping e IA para identificar y combatir la corrupción política Projects uri icon

type

  • National Research Project

reference

  • CNS2024-154581

date/time interval

  • April 1, 2025 - March 31, 2027

abstract

  • Este proyecto estudia la corrupción política y el papel de los empleados públicos independientes en su mitigación. Se trata de preguntas de importancia
    normativa que han recibido una atención notable en la literatura académica. Sin embargo, los trabajos previos han encontrado dos obstáculos cruciales
    que han impedido avances reales en esta línea de investigación:
    (1) Falta de datos de calidad sobre la corrupción. Como fenómeno clandestino, la corrupción es difícil de medir. La literatura anterior a menudo ha
    recurrido a percepciones de corrupción, pero estas medidas subjetivas sufren de sesgos.
    (2) Falta de datos confiables sobre la politización de los funcionarios. Aquí, estudios previos han utilizado encuestas de expertos, que también están
    sujetas a sesgos.
    Este proyecto busca resolver ambos cuellos de botella combinando (a) el uso masivo de datos administrativos y (b) el despliegue de herramientas de
    web scraping e inteligencia artificial.
    Primero, aplicaré herramientas de web scraping para recopilar datos masivos sobre contratación pública a todos los niveles de gobierno en España. La
    información sobre licitaciones permite crear indicadores detallados de riesgo de fraude, favoritismo y otras formas de corrupción. También se usarán
    herramientas avanzadas de web scraping para extraer información sobre el reclutamiento y la carrera de los funcionarios en tres cuerpos
    administrativos que tienen el potencial de controlar la corrupción: (i) funcionarios locales de habilitación nacional, (ii) inspectores de hacienda y (iii)
    auditores y controladores. Los datos se obtendrán del Boletín Oficial del Estado. Estos datos permitirán identificar los niveles de politización y su
    variación entre cuerpos administrativos, además de la variación en el tiempo y el espacio. Esto se hará aplicando algoritmos predictivos de IA a los
    datos administrativos.
    Un segundo paso implicará el despliegue de herrami