Buenas,
os anunciamos y compartimos los detalles de un dataset que acabamos de publicar de Wikipedia y que está orientado al estudio informétrico de esta enclipedia.

Wikipedia no solo es la enciclopedia digital más popular sino uno de los sitios web más visitados del mundo. Esto la convierte en un medio social de gran interés para analizar las diferentes interacciones que se producen en sus contenidos. Es mucha y variada la investigación desarrollada en torno a la Wikipedia, sin embargo, se echa en falta un marco teórico que ponga en relieve los principales contenidos, relaciones e interacciones producidas en este espacio, en especial para su estudio informétrico.

En un reciente trabajo no solo hemos realizado una propuesta con dicha conceptualización, sino que tras ello hemos generado y compartido un extenso dataset de la Wikipedia inglesa. Se trata del Wikipedia Knowledge Graph. En este se encuentran todas las páginas a fecha de julio de 2021, un total de 53.710.529 páginas, y para las cuales se incluyen metadatos básicos como el título o fecha de creación y métricas como el número total de ediciones, las visitas o las referencias bibliográficas. Además, también se incluyen las categorías, enlaces entre páginas de Wikipedia y las publicaciones y sitios web referenciados de manera normalizada. Todo ello siguiendo un modelo relacional que facilita la conexión entre las diferentes entidades. El dataset se encuentra disponible en abierto en Zenodo (doi:10.5281/zenodo.6346899).

Aunque este dataset está limitado a la versión inglesa de la Wikipedia, los scripts empleados para su generación, a partir de datos disponibles en abierto, se encuentran también disponibles (doi:10.5281/zenodo.6959428). De este modo, es posible replicar el proceso de creación en otras versiones lingüísticas de la enciclopedia.

Más información disponible en:

Arroyo-Machado, W., Torres-Salinas, D., & Costas, R. (2022). Wikinformetrics: Construction and description of an open Wikipedia knowledge graph dataset for informetric purposes. Quantitative Science Studies, 1-35. https://doi.org/10.1162/qss_a_00226

Saludos,
Wenceslao Arroyo-Machado
[log in para visualizar], @Wences91
Universidad de Granada | Facultad de Comunicación y Documentación



Para darse de baja de IWETEL haga clic AQUI