Skip to content
This repository has been archived by the owner on Feb 13, 2024. It is now read-only.

Commit

Permalink
several typo-spelling fixes
Browse files Browse the repository at this point in the history
  • Loading branch information
ivanhercaz committed Oct 2, 2018
1 parent 8084485 commit 9d69763
Showing 1 changed file with 5 additions and 5 deletions.
10 changes: 5 additions & 5 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -5,7 +5,7 @@

Wikidata-IATEXT fue un proyecto que consistió en la curación y estructuración de datos relacionados con los miembros del Instituto de Análisis y Aplicaciones Textuales (IATEXT) de la ULPGC. El objetivo fue crear los elementos de todos los investigadores y sus respectivas publicaciones, tantas como fuese posible.

Se dividió en dos fases. La priemra dedacada a los investigadores y la segunda a las publicaciones. La primera consistió en la creación y modificación (ado que ya había elementos creados) de un total de 64 elementos. La segunda fase no tuvo límite debido a que no había una base de datos ni proyecto en el que aclarar esta cantidad y extraer los datos. Véase el apartado *[Resultados. Problemas principales](#Problemas_principales)*.
Se dividió en dos fases. La primera dedicada a los investigadores y la segunda a las publicaciones. La primera consistió en la creación y modificación (ado que ya había elementos creados) de un total de 64 elementos. La segunda fase no tuvo límite debido a que no había una base de datos ni proyecto en el que aclarar esta cantidad y extraer los datos. Véase el apartado *[Resultados. Problemas principales](#Problemas_principales)*.

El [informe final](https://www.wikidata.org/wiki/User:Iván_Hernández_Cazorla/IATEXT) se encuentra en inglés en Wikidata. Si el proyecto te parece interesante, te animo a leer el informe ya que está más ilustrado (cuadros y tablas) que en este archivo.

Expand All @@ -18,11 +18,11 @@ El [informe final](https://www.wikidata.org/wiki/User:Iván_Hernández_Cazorla/I

### Metodología

Al principio, antes de comenzar, el método para realizar esta tarea consistía en la creación de un archivo CSV con todas las propiedades y ejemplos de valores, la extracción de datos y la organization de estos en el CSV, para luego crear los elementos en masa con [QuickStatements](https://www.wikidata.org/wiki/Help:QuickStatements/es); finalmente, se revisarían los elementos para solucionar posibles [restricciones de las propiedades](https://wikidata.org/wiki/Help:Property_contraints_portal), corregir pares de propidad-valor erróneos, añadir pares necesarios en elementos concretos, y generar las identificadores/autoridades con el [script para el control de autoridades](https://www.wikidata.org/wiki/User:Magnus_Manske/authority_control.js) desarrollado por [Magnus Manske](https://www.wikidata.org/wiki/User:Magnus_Manske).
Al principio, antes de comenzar, el método para realizar esta tarea consistía en la creación de un archivo CSV con todas las propiedades y ejemplos de valores, la extracción de datos y la organization de estos en el CSV, para luego crear los elementos en masa con [QuickStatements](https://www.wikidata.org/wiki/Help:QuickStatements/es); finalmente, se revisarían los elementos para solucionar posibles [restricciones de las propiedades](https://wikidata.org/wiki/Help:Property_contraints_portal), corregir pares de propidad-valor erróneos, añadir pares necesarios en elementos concretos, y generar las identificadores/autoridades con el [script para el control de autoridades](https://www.wikidata.org/wiki/User:Magnus_Manske/authority_control.js) desarrollado por [Magnus Manske](https://www.wikidata.org/wiki/User:Magnus_Manske), doctor en bioinformática y wikimedista.

Sin embargo esto no funcionó del todo. En el caso de los investigadores fue más sencillo, pero con las publicaciones fue más complicado porque no hay un proyecto en el que sea posible extraer los datos de todas las publicaciones de los investigadores del IATEXT. Debido a esta situación las fuentes se delimitaron a tres: sitios web personales y oficiales, [Acceda](https://acceda.ulpgc.es) (repositorio institucional de la ULPGC) y [Dialnet](https://dialnet.unirioja.es) (base de datos bibliográfica). El problema principal con estas fuentes es que ninguna está bien estructurado, por lo que es imposible extraer de una modo sencillo los datos necesarios. Dialnet es, de las tres, la fuente más estrcuturada, pero no permite extraer su contenido, probablemente debido a la configuración de su archivo ``robots.txt``. Los datos en Acceda están muy mal estructurados, no parece que sean revisados ni corregidos, por lo que cualquier publicación que se suba con un error o en un formato incorecto en alguna propiedad/campo no se corrige a posteriori.

Debido a esto QuickStatements no fue muy útil, ya que insertar los datos en el CSV, para luego subirlos con QuickStatements y corregir posibles problemas era un trabajo doble. Por lo que el método cambió a insertar las publicaciones manualmente: elemento por elemento, propiedad por propiedad.
QuickStatements dejó de ser útil debido a este conjunto de dificultades, ya que insertar los datos en el CSV, para luego subirlos con QuickStatements y corregir posibles problemas era un trabajo doble. Por lo que hubo que cambiar el método e insertar las publicaciones manualmente: elemento por elemento, propiedad por propiedad.

### Esquema de datos básicos

Expand All @@ -36,7 +36,7 @@ Debido a esto QuickStatements no fue muy útil, ya que insertar los datos en el

### Resultados

Hasta el 21 de septimebre de 2018 se realizaron más de 43 429 ediciones en el espacio de elementos de Wikidata y se editaron 1689 elementos, de los que 1430 fueron creados.
Hasta el 21 de septiembre de 2018 se realizaron más de 43 429 ediciones en el espacio de elementos de Wikidata y se editaron 1689 elementos, de los que 1430 fueron creados.

La fase uno terminó con la creación de los elementos para los 52 investigadores de plantilla, 3 posdoctorales, 2 predoctorales y 7 afiliados.
La fase dos terminó con 923-1079 elementos correspondientes a las publicaciones de los miembros del IATEXT. Además, durante esta fase han sido creados elementos que no están relacionados directamente con el IATEXT. Por ej., revistas científicas, obras coordinadas por investigadores externos y supervisores doctorales, entre otros.
Expand All @@ -46,7 +46,7 @@ La fase dos terminó con 923-1079 elementos correspondientes a las publicaciones

#### Problemas principales

A parte de los problemas ya mencionados en el apartado *[Metodología](#Metodología)*, al principio de este reporte, hubo algunos problemas que se deben mencionar:
A parte de los problemas ya mencionados en el apartado *[Metodología](#Metodología)*, al principio de este reporte, hubo algunos que se deben mencionar:

1. El instituto universitario (IATEXT) no tenía una lista con todos los miembros y sus datos completos, por lo que fue necesario encontrar los datos en diferentes fuentes. Ahora, el IATEXT puede obtener estos datos a partir de Wikidata.
2. El punto anterior también se aplica a las publicaciones científicas.
Expand Down

0 comments on commit 9d69763

Please sign in to comment.