Michael Hohlfeld
Michael Hohlfeld boosted:
Esther Tobschalltobschalle@blog.tib.eu
2025-05-13

Die Wissenschaft schützen: TIB baut Dark Archive für arXiv auf

read this article in English

Forschung und Wissenschaft sind international, nicht umsonst spricht man von internationalen Fachcommunities. Ein Dienst wie arXiv wird zwar von einer in den USA ansässigen Einrichtung, der Cornell University, betrieben, genutzt wird arXiv aber von Forschenden weltweit, wie zum Beispiel die Statistik der Submissions eindrücklich beweist. Auch ein Teil der Finanzierung von arXiv ist seit 2010 mit Einführung der arXiv Membership internationalisiert worden. Die TIB finanziert den deutschen Beitrag gemeinsam mit der Helmholtz-Gemeinschaft Deutscher Forschungszentren (HGF) und der Max-Planck-Gesellschaft (MPG).

Was ist arXiv?

Die Plattform arXiv.org ist ein frei zugängliches Online-Archiv für wissenschaftliche Preprints, also Vorabveröffentlichungen von wissenschaftlichen Arbeiten, die noch nicht oder noch nicht endgültig begutachtet (Peer-Review) wurden. Der Preprint-Serverdienst arXiv hat große Bedeutung in der Informationsversorgung für die Physik, Mathematik und Informatik und angrenzende Fächer. Über arXiv haben Forschende die Möglichkeit, auf neueste Forschungsergebnisse noch vor der eigentlichen Veröffentlichung in einem qualitätsgesicherten Journal zugreifen zu können. Seit seiner Gründung 1991 als erster Online-Preprintdienst dient arXiv eine Vorbild für die Entwicklung von Preprint-Diensten in anderen Fächern (vgl. Rzayeva et al. 2025, https://doi.org/10.31235/osf.io/xdwc4_v2).

Wenn also die Trump-Regierung Entscheidungen fällt, die fatale Folgen für Wissenschaft und Forschung in den USA haben, hat das auch Konsequenzen weit über den Golf von Mexiko hinaus: In den letzten Tagen häufen sich in deutschen Medien Meldungen, die von der Furcht der Forschenden nicht nur vor Datenverlusten, sondern auch vor dem Verlust etablierter Informationsportale wie zum Beispiel PubMed zeugen.

Gefährdete Forschungsdaten sichern

Initiativen wie „Safeguarding Research and Culture“ bemühen sich, bedrohte Forschungsdaten und Websites für die Forschungscommunities und die Nachwelt zu sichern. Die bedrohten Inhalte reichen von den Sozialwissenschaften (zum Beispiel Forschung zu LGBTQIA+-Themen), Medizin (zum Beispiel Impfstoffe)
bis zu den Naturwissenschaften (zum Beispiel Klimaforschung). Während Forschung mit Bezügen zu politischen Debatten den offensichtlichsten und schärfsten Repressalien ausgesetzt ist, kann prinzipiell jede Forschung von „Einsparungs-“ und Umstrukturierungsmaßnahmen bedroht sein. Dies zeigt sich zum Beispiel an der geplanten Schließung der traditionsreichen Atomspektroskopie-Gruppe am National Institute of Science and Technology (NIST).

Dezentrale Infrastrukturen in der Wissenschaft

Leider ist von einer weiteren Eskalation der schon jetzt bedrückenden Einschränkungen der Wissenschaftsfreiheit in den USA auszugehen. Nicht zuletzt aufgrund der großen Bedeutung US-amerikanischer Institutionen im internationalen Wissenschaftssystem betreffen diese Entwicklungen Forschungsinfrastrukturen weltweit. Wie „Safeguarding Research and Culture“ in ihrem Mission Statement schreiben, erfordert dies ein Umdenken, unter anderem hin zu dezentralisierten und dadurch resilienteren Infrastrukturen.

Für arXiv gab es bis zum letzten Jahr ein System, das hier zumindestens zeitweise hätte helfen können: In den Anfangszeiten des Internets, die ja auch die Anfangszeiten von arXiv waren, gab es neben dem Hauptserver arXiv.org ein weltweit verteiltes Netz von Spiegeln oder arXiv mirror sites, die es ermöglichten, auf einen geografisch näheren Abzug der arXiv-Inhalte zuzugreifen. Legendär war hier zum Beispiel der Augsburger arXiv-Spiegel de.arXiv.org, der häufig mit kürzeren Zugriffs- und Antwortzeiten überzeugte.

Mit den Jahren und dem technischen Fortschritt ließen sich dann aber keine Unterschiede mehr zwischen der Performance der lokalen Spiegel (unter anderem bei der Europäischen Organisation für Kernforschung CERN, oder am Los Alamos National Laboratory (LANL) in Frankreich und Japan) und dem Hauptserver arXiv.org festzustellen, sodass über neunzig Prozent des Traffics über diesen Server lief und die Spiegel nur noch wenig genutzt wurden. Der Aufwand für die Pflege und Aktualisierung der Spiegel stand damit nach Ansicht des arXiv-Teams in keiner angemessenen Relation mehr, wie im arXiv-Blog unter Attention arXiv users: arXiv mirrors to shut down September 15th, 2024 nachzulesen ist.

Nachdem das arXiv-System in den letzen Jahren auf eine vollständig cloud-zentrierte Architektur für seine Dienste umgestiegen ist, kamen die arXiv-Verantwortlichen zum Ergebnis, dass

„The arXiv mirror network served a role – acting as a backup for the corpus, allowing some degree of load distribution, and providing improved access for users who were geographically closer to a mirror – that is no longer necessary. arXiv now has multiple backups for the arXiv corpus in place, and the Fastly CDN (Content Delivery Network) that we use to deliver content provides excellent service throughout the world.“

Als in Europa angesiedelte Einrichtung haben wir das schon immer etwas anders gesehen – und die aktuellen Entwicklungen scheinen unsere Vorbehalte leider zu bestätigen – und haben uns immer für den Erhalt der Spiegel eingesetzt bzw. uns nach Alternativen umgesehen. Einige Prozesse haben sich dabei leider als langwierig und schwierig herausgestellt, zum Beispiel auch aufgrund der lizenzrechtlichen Rahmenbedingungen. (Open Access ist nicht unbedingt Open Access, wenn die Autor:innen alleine arXiv das Recht zu Bereitstellung gegeben haben.) Andere werden eventuell noch weiterverfolgt werden können.

Warum die TIB arXiv-Daten archiviert

Was wir aber in den letzten Wochen umgesetzt haben, ist ein Dark Archive der arXiv-Inhalte aufzubauen:

Im ersten Schritt muss im Falle eines Dark-Archives-Aufbaus natürlich die Rechteklärung erfolgen. Hier hatte die TIB bereits 2016 ein Rechtsgutachten im Rahmen einer möglichen Kooperation mit arXiv.org in Auftrag gegeben. Hierbei wurden auch die von arXiv genutzten Lizenzen untersucht, die sich grob in die Kategorieren „arXiv.org Lizenz“ , „Creative Commons“ und „Public Domain“ unterteilen lassen. Während der eigentlichen Archivierung der Daten und Metadaten nichts im Wege steht, muss diese Rechtesituation sodann bei der Zugänglichmachung auf die Daten im Rahmen eines Services näher untersucht werden. Dies gilt insbesondere für die mit den arXiv-Lizenzen versehenen Objekten, da dieser Lizenztyp über die Jahre auch verschiedene Versionen durchlaufen hat. In den Jahren 1991 bis 2003 wurden Objekte sogar ohne ausdrückliche Lizenz von Nutzer:innen hochgeladen.

Bevor aber ein Nutzungsdienst zukünftig überhaupt erst aufgesetzt werden kann, müssen die Daten zunächst in die TIB-Infrastruktur geladen werden. Hierzu stellt arXiv selbst für die Volltexte verschiedene Methoden bereit. Da sowohl PDF als auch (La)TeX Sourcen Bestandteil des TIB Dark Archives sein sollen, haben wir uns für den Download über Amazon S3 entschieden. Diese Möglichkeit bietet arXiv als „Requester Pays Buckets“-Methode – dies bedeutet, dass die TIB als abholende Entität die bei Amazon Web Services (AWS) anfallenden Kosten übernimmt. Für die 2.685.172 abgeholten Datensätze mit knapp unter 10 Terabyte Datenvolumen sind im S3 Transfer circa 900 Euro angefallen.

Da die Metadaten aus arXiv schon seit längerer Zeit eine feste Datenquelle des TIB-Portals sind, musste kein neuer Workflow hierfür eingerichtet werden. Dies erleichtert perspektivisch auch die Zugänglichmachung der Datensätze über das TIB-Portal. Eine Möglichkeit hierzu ist beispielsweise die Hinterlegung eines zweiten Download-Links im Hintergrund der arXiv-Datensätze im TIB-Portal. Ist der erste Downloadlink, welcher auf die arXiv-Quelle zeigt, nicht mehr erreichbar, so soll der zweite Link greifen, der auf die nun an der TIB vorliegende Kopie zeigt. Für Nutzende des TIB-Portals ist damit ein nahtloser Zugriff auf die arXiv-Records möglich, auch bei Ausfall der eigentlichen Plattform bei Cornell. Wie weiter oben erwähnt ist diese Zugänglichmachung aber abhängig von den jeweiligen Lizenzen.

Ebenso muss nun nach der ersten Komplettabholung des arXiv-Bestands ein Prozess eingerichtet werden, welcher neu hinzukommende arXiv-Datensätze sowie Versionierungsinformationen für bereits vorhandene Datensätze regelmäßig abholt.

„Der Aufbau eines Dark Archives ist Ausdruck unseres langjährigen Engagements für eine verlässliche, internationale Wissenschaftsversorgung und als Partnerin von arXiv. Auch wenn das Dark Archive heute nur im Hintergrund arbeitet, ist es ein entscheidender Baustein für die langfristige Absicherung digitaler Forschungsinhalte, denn im Krisenfall können wir das Archiv öffnen.“

Dr. Irina Sens, stellvertretende Direktorin der TIB

Dark Archive: Daten gespeichert, aber nicht öffentlich zugänglich

Die Daten sind also vorhanden, aber im Fall der Fälle bedürfte es einiger weiterer Schritte, um sie öffentlich machen zu können. Ein Datenbankdienst ist schließlich viel mehr eine bloße Sicherungskopie eines Datensatzes: Für den Betrieb im Sinne der Forschenden werden nicht nur technische Ressourcen benötigt, sondern vor allem ein engagiertes Team, welches sich der vielfältigen Aspekte im Hintergrund wie zum Beispiel Qualitätssicherung oder inhaltlicher und technischer Weiterentwicklung annimmt.

Im Falle von arXiv gibt es nicht nur die Zugänglichkeit der Artikel und die Suchfunktion, die Upload-Services für Autor:innen und weitere technische Dienste. Vielmehr ist die Verankerung in der wissenschaftlichen Community das Herz von arXiv: Eine Vielzahl von Forschenden, die sich in diversen Gremien, für die Moderation der Inhalte oder als freiweillige Entwicker:innen engagiert! Dieses gesamte „Ökosystem“ eines Dienstes neu zu verwurzeln, wäre die weitaus größere Aufgabe als eine Sicherungskopie der Daten unter einer neuen URL zugänglich zu machen. Daher gilt es gleichermaßen, das öffentliche Bewusstein für die Wissenschaftsfreiheit zu schärfen, wie auch wissenschaftsintern, die Bedeutung von Diensten wie arXiv zu würdigen – und sie, so gut wie möglich, resilient und nachhaltig zu machen.

#arXiv #DarkArchive #DigitaleLangzeitarchivierung #LizenzCCBY40INT #OpenAccess

Website von arXiv
Michael Hohlfeld boosted:
2025-02-26
Cartoon aus wenigen schwarzen Tuschestrichen. Ein Vogel sitzt auf einem Ast und sagt: Frühling wird es trotzdem.
Michael Hohlfeld boosted:
Stefan Schmejaschmejas@blog.tib.eu
2025-02-18

Eurobarometer: Große Zustimmung zu Open Access

Für das Eurobarometer werden im Auftrag der Europäischen Kommission regelmäßig die Bürger:innen nach ihrer Meinung zu bestimmten Themen gefragt. In einer kürzlich veröffentlichten Umfrage ging es um das Thema „Kenntnisse und Einstellungen der europäischen Bürger zu Wissenschaft und Technologie“. Dafür wurden im September und Oktober 2024 insgesamt 34.207 Personen in den 27 EU-Mitgliedstaaten sowie in acht Nicht-EU-Ländern befragt. Die Ergebnisse sind angesichts einer zumindest gefühlt zunehmenden Wissenschaftsskepsis bis -feindlichkeit durchaus erfreulich. So sind 83 % der Befragten der Meinung, dass der Einfluss von Wissenschaft und Technologie auf die Gesellschaft insgesamt positiv ist, und 70 % stimmen zu, dass Entscheidungen in Bezug auf Wissenschaft und Technologie überwiegend auf dem Rat von Expert:innen basieren sollten.

Eine Frage betraf den öffentlichen Zugang zu Forschungsergebnissen. Der Aussage „Die Ergebnisse öffentlich finanzierter Forschung, wie z. B. wissenschaftliche Artikel und Daten, sollten kostenlos online zur Verfügung gestellt werden“ stimmten 41 % voll und ganz und 39 % eher zu, nur 4 % antworteten mit „stimme eher nicht zu“, 1 % mit „stimme gar nicht zu“. Die Zustimmungsrate von 80 % ist um einen Prozentpunkt höher als bei der gleichen Umfrage 2021.

Quelle: Eurobarometer 2024 – Kenntnisse und Einstellungen der europäischen Bürger zu Wissenschaft und Technologie.
© Europäische Union

Aufgeschlüsselt nach Ländern zeigen sich gewisse Unterschiede (siehe Abbildung). Während in Finnland insgesamt 91 % zustimmen, sind es in Rumänien nur 55 %. Deutschland liegt mit 76 % etwas unter dem EU-Schnitt. Auch in den Nicht-EU-Ländern ist die Zustimmung groß und liegt zwischen 86 % im Vereinigten Königreich und 66 % in Bosnien und Herzegowina. Kleinere Unterschiede gibt es auch nach demographischen Merkmalen: So ist die Zustimmung in der Altersgruppe 55+ mit 76 % etwas geringer als unter Jüngeren (82 bis 83 %), und unter Manager:innen und Studierenden (86 bzw. 85 %) höher als unter Hausfrauen und Rentner:innen (jeweils 74 %).

Wissenschaftspolitik, Wissenschaftler:innen und die breite Bevölkerung sind sich also einig, dass die Ergebnisse öffentlich finanzierter Forschung frei zugänglich sein sollen. Eigentlich beste Voraussetzungen für die Open-Access-Transformation. Arbeiten wir zusammen, dass sie gelingt und  mit öffentlichen Mitteln erzielte Forschungsergebnisse bald zu 100 % frei zugänglich sind.

EUROBAROMETER SPEZIAL 557 – Kenntnisse und Einstellungen der europäischen Bürger zu Wissenschaft und Technologie: gesamter Bericht (PDF, 27,31 MB)

Beitragsbild: Antonio Zugaldia, CC BY 2.0, via Wikimedia Commons

#Eurobarometer #EuropäischeUnion #LizenzCCBY40INT #OpenAccess #Umfrage

Flagge der EU und mehrerer Mitgliedsländer vor einem Gebäude
Michael Hohlfeld boosted:

#OpenAccess bedeutet nicht nur den kostenlosen Zugang zu wissenschaftlichen Informationen, sondern auch die Möglichkeit, diese frei nachzunutzen.
Was dabei genau erlaubt ist, wird durch freie Lizenzen geregelt. Dabei gibt es immer wieder Fragen zur Wahl der besten Lizenz.
@StefanSchmeja empfiehlt im #TIBBlog die CC BY: blog.tib.eu/2024/11/19/open-ac

Michael Hohlfeld boosted:
2024-04-29

Exakt vor 10 Jahren - am 29. April 2014 - sind wir, das #TIB_AVPortal der @tibhannover, online gegangen. 🥳 🤘

Klar, es wird schon den gesamten April gefeiert. Aber was wäre ein Geburtstag ohne Gratulationen und Geschenke? 🎁 Zum Abschluss des Jubiläumsmonats freuen wir uns daher über zahlreiche, diverseste #Videoempfehlungen und damit verbundene Kudos. 👏 Et voila: blog.tib.eu/2024/04/29/wissens

2023-09-12

@fuzzyleapfrog Ein regelrechtes Regelgewitter da draußen.

Michael Hohlfeld boosted:

Ganze fünf neue @bmbf_bund@social.bund.de-finanzierte #OpenAccess-Projekte starten im September 2023 bei uns an der #TIB – zum Teil mit weiteren Partner:innen.

Die Projekte beschäftigen sich mit unterschiedlichen Aspekten von Open Access. In diesem Blogbeitrag stellen wir @idaho, @oa_koala -AV, @komet, #MehrOA und #PANTER vor: blogs.tib.eu/wp/tib/2023/08/30

Themenbild: Diverse Open Access-Button
Michael Hohlfeld boosted:
Captain, it's Wednesdayyikes@bbs.kawa-kun.com
2023-07-12
What a week, huh?
Yikes!
Michael Hohlfeld boosted:
2023-03-20

Wir suchen Unterstützung im Team Portale. Wer hat Lust, an der agilen Entwicklung des TIB-Portals und unserer FID-Portale mitzuwirken? tib.eu/de/die-tib/karriere-und

Michael Hohlfeld boosted:
2023-03-20

baudigital.social geht an den Start! Wir sind der Fachinformationsdienst (FID) #BAUdigital, und wir laden auf diesen neuen Mastodon-Server alle Forschenden, Lehrenden und Lernenden aus den Communities #Bauingenieurwesen, #Architektur und #Urbanistik ein, um sich fachlich auszutauschen und zu vernetzen.

Bitte verbreitet diese Nachricht, damit unser Server auf möglichst vielen anderen bekannt wird. Bitte boosten, was das Zeug hält!

#introduction #neuhier

A digital 3D model of a building in the shape of a Mastodon. Cold colours.
Michael Hohlfeld boosted:
OpenBiblioJobsobj@openbiblio.social
2023-03-15

Softwareentwickler:in Typo 3 / PHP (m/w/d), E 11 TV-L, unbefristet in Vollzeit, 16/2023 Technische Informationsbibliothek (TIB) | Bewerbungsfrist: 13.04.2023 tib.eu/stellenangebot-16-2023 | jobs.openbiblio.eu/stellenange #openbibliojobs

2023-03-14

Wir suchen Unterstützung im Team Portale. Wer hat Lust, an der agilen Entwicklung des TIB-Portals und unserer FID-Portale mitzuwirken? tib.eu/de/die-tib/karriere-und

2023-02-02

@ZBW_MediaTalk Entgeltordnungen?

Michael Hohlfeld boosted:

Heute startet unser #TIBThemencast – ein neues Format, in dem #TIB-Expert:innen in jeweils wenigen Folgen aktuelle Themen behandeln & kommentieren.

Unser erstes Thema: „DAS MASTODON IM PORZELLANLADEN – Fediverse und Wissenschaft“!
In 7 kurzen Folgen wird @Lambo (vom @tibosl) auf Fragen rund um @Mastodon & Kommunikation in der #Wissenschaft eingehen. Hört rein & kommentiert gerne hier, in unserem #TIBBlog oder überall dort, wo es Podcasts gibt – viel Spaß! 👉 tib.eu/tibthemencast-01-01

Michael Hohlfeld boosted:
2022-11-29

Es gibt einen neuen Beitrag im Blog der DINI AG FIS & E-Pub: "Neue Standortbestimmung Forschungsinformationssysteme veröffentlicht" 👉 doi.org/10.57689/dini-blog.202

Wir haben in der DINI AG FIS nach sieben Jahren unser Positionspapier überarbeitet. Ein Blick ist es Wert 👉 doi.org/10.18452/25440

Grafik mit dem "FIS Rocks" Männchen. Er hält zwei Schilder hoch: links "Positionspapier 1.0" und rechts "Standortbestimmung".

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst