Jörg Lehmann

digital humanism | machine learning | digital cultural heritage | Berlin State Library

Jörg Lehmann boosted:
2025-06-27

👤 Wir suchen Sie! Werden Sie wissenschaftliche:r Mitarbeiter:in (w/d/m) @stabi_berlin. Unterstützen Sie uns dabei, digitale Services im Bereich China weiter zu entwickeln! Die Bewerbungsfrist läuft bis zum 18. Juli. Alle Infos finden Sie hier: sbb.berlin/hnagr

Jörg Lehmannjrglmn
2025-04-08

Want to find patterns in bibliographic metadata? Want to perform bibliographic data science on the history of books?

Then feel free to use this dataset:

Metadata of the "Verzeichnis der im deutschen Sprachraum erschienen Drucke"
doi.org/10.5281/zenodo.15167938

This dataset consists exclusively of descriptive metadata of about 750.000 titles, which together form a retrospective German national bibliography of prints 1501-1800.

@cneud @stabi_berlin

Jörg Lehmannjrglmn
2025-04-02

A colleague from the UK and I bring in our two cents on a highly divisive issue, written from the perspective of CHIs and research libraries.

A Position Paper on AI and Copyrights in Cultural Heritage and Research (EU and UK)

doi.org/10.5334/johd.290

Jörg Lehmann boosted:
Sophie Schneiderbibwiss@fedihum.org
2025-03-07

⚠️Achtung⚠️ wichtige Links zum Vortrag “Named Entity Uncertainty Mining: Von der intellektuellen zur computergestützten Untersuchung unsicherer Annotationen” #dhd2025

mit @cneud @jrglmn Michal Bubula, Kai Labusch @stabi_berlin

Folien:

doi.org/10.5281/zenodo.1498352

Abstract:

doi.org/10.5281/zenodo.1494297

Jörg Lehmann boosted:
2025-01-15

@kobv_zt @awinkler @tweiss @jrglmn @4nn4_clickt

Wir freuen uns schon sehr auf die Vorträge und Diskussion am 11.2. 🥳 ! Unser Kollege Alex plädiert in seinem Impulsvortrag dafür, dass #GLAM verstärkt #KulturgutDigital vom Nutzen her denken und mehr aus offenen Datenangeboten machen können💪.

digis-berlin.de/online-veranst

#LovaData25

Jörg Lehmann boosted:
2025-01-15

Am 11.2. laden wir mit @digiSberlin zu einem Vortrag in der Reihe „Quo Vadis Open Access – #OffeneWissenschaft in #Berlin und #Brandenburg“ ein 🙌.

Thema der Veranstaltung: „Offenheit reicht nicht aus – Auf dem Weg zu einer lebendigen Datenkultur“. Gemeinsam mit Expert:innen diskutieren wir die Chancen und Herausforderungen offener #Kulturdaten.
Mit Julia Boltze-Fütterer, @awinkler, @tweiss , @jrglmn, @4nn4_clickt und weiteren Expert:innen...⭐

🔗 kobv.de/wir-laden-ein-vortrag-

#OpenAccess
#LoveData25

Jörg Lehmann boosted:
2024-09-23

I'm happy to announce that as of next week I'm taking up a new position as full professor at IT:U (it-u.at)!

IT:U is a brand new public university in Linz, Austria 🇦🇹, that focuses on interdisciplinarity.

At IT:U I'll be heading the “Inverse Complexity Lab” (@invcomplexity) focusing on inverse problems in network science and complex systems.

I'll be searching for a post-doc very soon (stay tuned!), and there will be many PhD openings next year.

It has been a pleasure to have been part of DNDS at CEU for the past 5 years! It's a wonderful department, with many colleagues that I will surely miss. (Keep your eyes open for a possible opening there!🤞)

Jörg Lehmannjrglmn
2024-09-20

@awinkler

Ja, macht einen Unterschied - die Verarbeitung großer Dateien wird z.B. auch auf Laptops (kleiner RAM, 16 GB) möglich. Das hat m.E. durchaus Auswirkungen auf die Nutzung

Jörg Lehmannjrglmn
2024-09-20

New post published on the blog of the MMK project on the topic of "objectivity" and the fallacy of conflating based on and with truth.

"Data, just like truth, is the product of subjective and asymmetrical social relations." @milamiceli

Blog post:
mmk.sbb.berlin/2024/09/20/on-o

@stabi_berlin @cneud

Jörg Lehmannjrglmn
2024-09-03

@awinkler @moinluk @stabi_berlin
Ja. In dem von Dir gewählten Beispiel war die erste publizierte Version aber eine schnöde .csv-Datei.
In diesem Beispiel zenodo.org/doi/10.5281/zenodo. habe ich's mal ausprobiert: Die .csv-Datei wäre 7,5 GB groß, lädt in R deutlich langsamer und benötigt mehr als doppelt so viel Arbeitsspeicher ...

Jörg Lehmannjrglmn
2024-09-03

@awinkler @stabi_berlin

Nein. Wer in der Lage ist, mit großen Datensätzen zu arbeiten, kann das Apache Arrow-Format .parquet nutzen, indem sie/er sich die entsprechenden libraries installiert, die es für C, C++, C#, Go, Java, JavaScript, Julia, MATLAB, Python, R, Ruby, und Rust gibt (arrow.apache.org/docs/cpp/parq). Datensätze im .parquet-Format sind kleiner, schneller zu laden und werden gerne von machine learnern genutzt.

Jörg Lehmannjrglmn
2024-09-02

New study by Helen Bubinger & Jesse Dineen from the Humboldt IBI:

"What could go wrong?" An evaluation of ethical foresight analysis as a tool to identify problems of AI in libraries"

A RARE study using EFA as a methodical tool and thus readworthy - however, available in open access only for the next 50 days:

doi.org/10.1016/j.acalib.2024.

@cneud @lucianofloridi @stabi_berlin

Jörg Lehmannjrglmn
2024-09-01

@anja_g_werder
Sorry, aber werde bis November nicht dabei sein … komme aber über den Winter wieder

Jörg Lehmann boosted:
Sophie Schneiderbibwiss@fedihum.org
2024-08-14

the (hi)story goes on... We just published machine-readable vocabulary files for the historical classification system "Alter Realkatalog" (ARK) @stabi_berlin as well as corresponding #annif (automatic subject indexing) models, trained on our ARK vocabulary and metadata:

zenodo.org/doi/10.5281/zenodo.

huggingface.co/collections/SBB

#automaticindexing #subjectindexing #machinelearning #LIS

From: @jrglmn
mastodon.social/@jrglmn/112830

Jörg Lehmannjrglmn
2024-07-23

@nichtich @stabi_berlin @cneud
Genau - möglicher Anwendungsfall, z.B. für retrieval-augmented generation of metadata, um die (freilich recht problematische*) ARK-Klassifikation für die Erzeugung von Metadaten von zwischen 1500 und 1955 erschienen Werken nutzen zu können

* Einige Biases der ARK-Klassifikation werden in dem die Datenpublikation begleitenden datasheet beschrieben

Jörg Lehmannjrglmn
2024-07-22

Want to work with big data?
Want to find patterns in bibliographic metadata? Want to perform bibliographic data science on the history of books between 1500 and 1955?

Then feel free to use this dataset:

zenodo.org/records/12783814

The dataset comprises of descriptive metadata of 2.619.397 titles, which together form the "Alte Realkatalog" of Berlin State Library, which may be translated to "Old Subject Catalogue".

@cneud @stabi_berlin

Jörg Lehmann boosted:
2024-07-18

[use case] See this usecase of an rOpenSci package in the wild!

Translating Carpentries workbench lessons with babeldown by @grusonh
discuss.ropensci.org/t/transla
with babeldown maintained by @maelle!

OAI interface request, response, and data download with R by @jrglmn
discuss.ropensci.org/t/oai-int
with oai maintained by @mbojan!

Using {weatherOz} to Plot Perth's May High Temperatures by @adamhsparks
discuss.ropensci.org/t/using-w
with weatherOz maintained by Rodrigo Pires!

#RStats
@rstats

Jörg Lehmannjrglmn
2024-06-28

@cneud @remenca @stabi_berlin
Rather, please take the citation as what it is: Dry and laconic northern German humour uttered by a seasoned politician

Jörg Lehmannjrglmn
2024-06-28

@remenca @stabi_berlin @cneud
Please excuse that, I did not intend to be rude, nor did I deliberately aim to hurt you.

Jörg Lehmannjrglmn
2024-06-28

@remenca @stabi_berlin @cneud
I am a non-native speaker as well

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst