Posth

Building Liccium, sign-up via liccium.com; ISO 24138 ISCC

PosthPosth
2024-11-23

@EzellaGarnie @cneud @titusz @awinkler @hartmut_beyer @Lambo Die OCR ist das Pre-Processing zur Erzeugung der Basis, die als Input zur Generierung des ISCC dient. Der Input kann ja unterschiedlich sein. Man müsste Mal testen, was dann am Ende herauskommt.

PosthPosth
2024-11-22

@EzellaGarnie @titusz @awinkler @hartmut_beyer @Lambo

Es wäre sehr interessant, das Pre-Processing der Scans via OCR zu testen, u.a. mal unterschiedliche Software zu vergleichen.

PosthPosth
2024-11-22

@osma @titusz @awinkler @Lambo @EzellaGarnie

A nice bird :) Well, these codes are deterministic, right? -->

- ISCC v0 64bit code X
- ISCC v0 32bit code Y
- ISCC v1 64bit code Z (in the future)

Since ISCC is self-describing, you know which version is used to generate the code.

But I see what you mean. For transparency reasons you could extract and list the version number, which is embedded in the ISCC. But I guess this may be redundant information.

PosthPosth
2024-11-22

@osma @titusz @awinkler @Lambo @EzellaGarnie

If the version is defined within the ISCC, what do you exactly mean by "there's no 1:1 mapping between content items and ISCCs"?

PosthPosth
2024-11-22

@EzellaGarnie @awinkler @osma @Lambo

@titusz May want to weight in with regards to some points.

PosthPosth
2024-11-22

@EzellaGarnie @awinkler @osma @Lambo

This document describes the general structure of the ISCC:

ISCC Structure and Format:
ieps.iscc.codes/iep-0001/

I don't think that you need to store the version number "next to the code".

PosthPosth
2024-11-03

@EzellaGarnie @awinkler @hartmut_beyer @Lambo

ISCC generiert auch Fingerprints / Chunks für Text. Schau mal hier.

huggingface.co/spaces/iscc/isc --> Chunker

Diese Codes erlauben den Vergleich auf der Detailebene. Viele Chunks deiner Scans sind identisch. Das wäre der Ansatz, den ich wählen würde. Nicht nur die ISCC Codes für den gesamten Text oder die Seite generieren, sondern auch für die Chunks. Diese kann man dann vergleichen und die Inhalte viel besser matchen.

PosthPosth
2024-11-03

@EzellaGarnie @awinkler @hartmut_beyer @Lambo Das war jetzt eine einfache Google Lens OCR. Aber es gibt da sicherlich viel spezifischere Tools, auch für etwas ältere Drucke. Vielleicht kann man KI auch für Handschriften_Erkennung trainieren und dann verschiedene Seiten (Scans) zusammenfügen und analysieren. Ich sehe da viel Potenzial, aber es bedarf einiger Vorarbeit, wenn man nur die Scans vorliegen hat.

PosthPosth
2024-11-03

@EzellaGarnie @Lambo Wir können uns gern mal besprechen. Es ist im Prinzip eine Frage des Pre-Processing der Bilddateien (Scans) von Texten. ISCC für Bilder analysiert Pixel, ISCC für Text Character-Informationen.

PosthPosth
2024-11-03

@EzellaGarnie @awinkler @hartmut_beyer @Lambo

Bei diesen Scans könnte/muss man eine OCR vorschalten und einen ISCC Text (statt Bild) erstellen. Dann gibt es einen sinnvollen Match (9 bits Unterschied). Die Bilder selbst sind glaube ich nicht aussagekräftig.

PosthPosth
2024-11-02

@EzellaGarnie @awinkler @hartmut_beyer @Lambo Ein Student des if(is) macht gerade einen sehr ausführlichen Test des ISCC mit hunderten, unterschiedlichen Use Cases, der zeigt, wieweit das Matching reicht – jeweils per Medienart. Ich hoffe, dass diese Analyse vielleicht bis Ende des Jahres von ihm publiziert werden kann. – Das kann helfen, die Erwartungen zu "managen".

PosthPosth
2024-11-02

@EzellaGarnie @awinkler @hartmut_beyer @Lambo

Auf demo.iscc.io/ kann man auf dem "DNA"-Tab (Reihen 5-8) zählen, wie viele Bits unterschiedlich sind. Alle 3 Beispiele wären total unterschiedlich und würden auf Basis des ISCC kein Matching zulassen.

Die zur Zeit noch experimentelle Semantic-Code Unit würde eine geringe inhaltliche Ähnlichkeit feststellen: huggingface.co/spaces/iscc/isc

Vergleich zweier ISCC CodesVergleich der Content-Code Unit zweier ISCC Codes.Semantic Similarity
PosthPosth
2024-11-02

@EzellaGarnie @awinkler @hartmut_beyer Digitalisate sind Bild-Dateien, bei denen das 'near-duplicate matching' gewisse Grenzen hat. Im Bereich zwischen 10-16 unterschiedlichen Bits (basierend auf den 64 Bits der Unit) trudeln die falsch-positiven Treffer ein.

Posth boosted:
2024-11-02

@EzellaGarnie @Lambo ich habe hier auch gleich ein Property Proposal für den ISCC auf #Wikidata eingereicht (wikidata.org/wiki/Wikidata:Pro). Könnte ja durchaus nützlich sein z.B. bei den strukturierten Daten auf WikiCommons.

PosthPosth
2024-09-14

@Life_is @Raymond @wikimediaDE

Bei Liccium haben wir ein sogenanntes "Soft-Binding" implementiert, dass es ermöglicht, Rechte und Metadaten (Exif, IPTC, und andere Industriestandards) in einer externen Datei zu bündeln und mit den ISCC zu verknüpfen. Jede/r User mit Zugriff auf die Mediendatei kann nun den ISCC aus der Datei erzeugen und die externe Datei auslesen.
liccium.com/solution/

PosthPosth
2024-09-14

@Life_is @Raymond @wikimediaDE

Was das Thema der KI Trainingsdaten betrifft geht es ja im Wesentlichen um die Frage, wie Rechte und Metadaten unlösbar mit dem Inhalt verknüpft werden können. Das Einbetten von Metadaten ist eine wenig zuverlässige Methode, da die Metadaten beim social sharing ja in der Regel entfernt werden.

PosthPosth
2024-09-14

@Life_is @Raymond @wikimediaDE

Wo finde ich denn den Post zu ISCC? Verweist Du auf diese Proposal: commons.wikimedia.org/wiki/Com?

ISCC ist ein ISO Standard Identifier, der "Perceptual hashes" verwendet: "checksums which can be used to identify visually identical images even if they have been scaled, re-compressed, or subjected to minor alterations."

PosthPosth
2024-07-06

Thanks for your excellent post! Very much appreciated. @EzellaGarnie @Lambo

Posth boosted:
2024-07-06

Have you ever heard of the new International Standard Content Code #ISCC identifier? For those of you thinking "What's that?", @Lambo and I have written an article explaining the #ISCC how it differs from classic #PID like #DOI and why it's important for #GLAM institutions.

blog.tib.eu/2024/07/05/the-int

CC @Posth

Posth boosted:
2024-06-09

"Recently, the #C2PA adopted the #ISCC as one identifier that is among its list of authoritative soft binding algorithms in the C2PA model."

Todd goes on describing very well the strength of #PID|s, and how PIDs and ISCC will complement each other.

Introducing the Newest ISO Identifier Standard: @tac_NISO (Todd Carpenter, NISO Executive Director) on ISCC, DOI and DIDs.

via @Posth
cc @EzellaGarnie

Try out the ISCC yourself: huggingface.co/spaces/iscc/isc

Four-part ISCC scheme diagram

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst