Gracias Enrique,

Propuesta de ameno ejercicio para este fin de semana (desde Edinburgh, Escocia, con previsiones de 14 grados y cielo nublado, me hago cargo de la diferencia :)

1. Entrar en la lista de proveedores de datos del recolector OAI-PMH OAIster por la letra U, http://oclc.org/oaister/contributors.en.html#U (OAIster es ahora propiedad de OCLC y esta incluido en el servicio WorldCat Digital Collection Gateway, http://oclc.org/digital-gateway.en.html, que garantiza la sindicacion de los contenidos recolectados con motores de busqueda tales como Google o MS Academic Search).

2. Consultar cuantos repositorios institucionales de acceso abierto españoles y latinoamericanos estan registrados en ese listado. Caveat: no valen revistas OA y no valen sobre todo repositorios cuya homepage URL no esta accesible (son unos cuantos, sobre todo del segundo grupo).

Antaño, alla por los años 2000 cuando OAIster era institucional, el registro como proveedor era un requisito basico para cualquier repositorio de nueva creacion; una vez que fue absorbido por OCLC como parte de una coleccion mucho mayor de proveedores de contenidos, se fue perdiendo esa costumbre: el proceso de registro seguia (y sigue) siendo gratuito, pero OCLC no parecia tan fiable como Illinois y se sospechaba que en algun momento el servicio podria pasar a ser de pago. Los repositorios latinoamericanos, con fechas de creacion en muchos casos relativamente recientes, pueden no haber coincidido con el cenit de OAIster como servicio, y no estar en consecuencia registrados como proveedores de datos. Esto no quiere decir que no haya otras estrategias para maximizar la indexacion.de contenidos, pero esta es ahora mismo la mas eficaz.

Coincido pues en que no es todo culpa de Google, como tampoco lo es de DublinCore, que con toda su problematica ha logrado un asombroso nivel de implantacion mundial gracias a su enorme sencillez e interoperabilidad basada en OAI-PMH. El problema principal es la dificultad de lograr que las directrices para la armonizacion (que eventualmente incluiran estrategias para implantar linked open data) lleguen a todos los repositorios y sean asumidas por todos los gestores de repositorios (algo que OpenAIRE en Europa esta haciendo de manera modelica como un ejemplo a seguir para otras regiones). 

El segundo problema principal radica en el hecho de que las discusiones en torno al acceso abierto estan tradicionalmente tan teñidas de ideologia y tan escasas de intercambios sobre aspectos tecnicos, que los argumentos se repiten y se repiten asi pasen decadas sin que se aprecien mayores progresos en su puesta en practica.


Un saludo y buen fin de semana,


Pablo

-----
Pablo de Castro
euroCRIS Board - Best Practice/DRIS Task Group Leader

ORCID Technical Steering Group member
http://orcid.org/0000-0001-6300-1033

GrandIR Ltd.
5/5 Eyre Crescent
Edinburgh
Scotland
United Kingdom
EH3 5ET
Company No. SC461215



2014-06-27 13:50 GMT+01:00 Enrique Orduña <[log in para visualizar]>:
Queridos compañeros,

En primer lugar, al igual que hiciera Emilio, quisiera comenzar dando las gracias a todas las personas que han intervenido, generando este interesante hilo argumental en torno a la visibilidad de los repositorios en los motores de búsqueda, en especial Google y Google Scholar. Todos los comentarios, aclaraciones terminológicas y discusiones en torno a este punto nos permiten seguir aprendiendo.

En cuanto a la presencia de los metadatos en Google, no puedo estar más de acuerdo con las palabras de Xavier, más cuando Google Scholar nos dice claramente que no le gusta Dublin Core. Mi pregunta aquí es clara aunque dura:

Si Google Scholar, primer buscador de información científica del mundo en la actualidad (in crescendo), nos dice claramente que no trabaja bien con Dublin Core, ¿por qué la inmensa mayoría de repositorios ofrecen los metadatos sólo en Dublin Core? 

Además, seamos claros, ¿cuántas personas entran en un repositorio a realizar búsquedas? La gente entra en Google Scholar (o simplemente en Google), hace una búsqueda y, entre los resultados obtenidos, pulsa en uno que quizás le lleve a los metadatos ofrecidos por un repositorio, o incluso acceda al texto completo directamente sin pasar siquiera por el repositorio. Por tanto, si no apareces en los resultados del buscador, las probabilidades de que te visiten se tornan remotas. Y parto de que el propósito de un repositorio es que los productos que ofrece sean consumidos.

Por otro lado, en cuanto al texto completo, nuestro trabajo confirma las palabras de Isabel (por cierto, esperamos la memoria anual 2013 con ganas). De hecho, la búsqueda con mejores resultados obtenidos es aquella realizada en Google, filtrando resultados en PDF. La razón principal: los 5M de tamaño máximo restringidos por Google Scholar, que Jorge Serrano nos recordaba en su mensaje (y que Google también nos dice claramente). Por tanto, veamos cuántos documentos cargados en los repositorios incumplen este requisito olvidado, y comprendamos por qué ciertos recursos están en Google, y no están en Google Scholar.

Esperamos haber aportado información de interés a este debate. Mientras, seguiremos tratando de descifrar las entrañas de Google Scholar y derivados.

Buen fin de semana!



Enrique Orduña
EC3 Research Group. Universidad Politécnica de Valencia (UPV).


----------------------------------------------------
Los artículos de INCYT son distribuidos gracias al apoyo y colaboración 
técnica de RedIRIS - Red Académica española - (http://www.rediris.es)
------------------------------------------------------


----------------------------------------------------
Los artículos de INCYT son distribuidos gracias al apoyo y colaboración 
técnica de RedIRIS - Red Académica española - (http://www.rediris.es)
------------------------------------------------------