Jeffrey C. Witt

Text Re-Use Detection mit Ngrams und Graphen.

2023-02-01T00:00:00+00:00

Einleitung

Ich war einmal in Münster, um einen Vortrag über mein Text-Archiv zu halten. In diesem Vortrag habe ich versucht zu erklären, warum es so wichtig ist, unsere kritischen Editionen historischer Texte als “Machine Accessible Daten” vorzubereiten und nicht nur als ein gedrucktes Buch. Und danach hat mich jemand sehr direkt gefragt. “Lohnt es sich”?

Mit dieser Frage habe ich verstanden, dass der Mann die neuen editorischen Prozesse (die ich empfohlen hatte) als schwieriger als “den normalen Prozess” empfunden hatte. Und er fragte sich, “was bekomme ich dafür, wenn ich diesen neuen Prozess übernehme?”

Zuerst einmal bin ich nicht der Meinung, dass es wirklich einen so-genannten “normalen Prozess” gibt. Was normal heißt, ist nur ein Prozess, an den wir so gewöhnt sind, dass wir ihn als einfach und mühelos sehen, und darum vergessen wir, dass wir diesen Prozess irgendwann gelernt haben.

Aber ich nehme den Einwurf an. Er konnte keinen Grund sehen, warum er eine neue Normalität aufbauen sollte.

Für mich waren die zukünftigen Möglichkeiten “at Scale” ganz klar, aber diese Möglichkeiten sind schwierig zu demonstrieren, wenn wir noch nicht “at Scale” sind. Aber wir können nicht zu Scale kommen, wenn Leute diese Möglichkeiten nicht sehen und uns daher nicht helfen, diese “Scale” zu erreichen. Am Anfang befinden wir uns also in einem kleinen Teufelskreis.

Um diesem Teufelskreis zu entkommen, braucht man Geduld. Wir müssen geduldig Daten hinzufügen, bis wir einen Umfang erreichen, der groß genug ist, um die Möglichkeiten der Skalierbarkeit zeigen zu können.

Ich stehe noch am Anfang von diesem Prozess, aber ich glaube, dass ich langsam einen Umfang erreiche, bei dem ich einige Möglichkeiten realisieren und konkret zeigen kann.

Deshalb hoffe ich, heute anhand von einigen Beispielen zeigen zu können, wie die Übernahme von besserer editorischer Praxis (at Scale) auch bei traditionellen Zielen zu besseren Ergebnissen führt.

Dabei will ich in einer semi-autobiographischen Form vorgehen und eine kleine Geschichte von meinen verschiedenen Versuchen erzählen, Quellen und deren unterschiedliche Einflüsse (innerhalb eines großen Korpus) zu entdecken. Diese Geschichte führt mich zu den aktuellen Prozessen, die ich jetzt benutze und mit denen ich weiter experimentiere. Und obwohl ich die Experimente fortsetze, glaube ich, dass ich schon ein paar Beispiele von echten Entdeckungen aufzeigen kann, die Antworten auf traditionelle Fragen beinhalten. Auf diese Weise würde sich die anfängliche Frage, ob sich das denn alles lohnt, von selbst beantworten.

Aspiration für Zitatsnetwork mit dem traditionellen Apparatus Fontium

Am Anfang wollte ich von der editorischen Arbeit profitieren, die Editoren sowieso schon tun.

Im traditionellen Workflow, wo man eine Quelle entdeckt, speichert man diese Daten in einer Fußnote ganz unten auf der Seite.

Das bedeutet: wenn jemand ein Zitat von De Trinitate von Augustinus in einem anderen Text (z.B. eines Autors aus dem 14ten. Jahrhundert) gefunden hat und das unten auf der Seite in einer Edition geschrieben hat, bemerkt niemand (der De Trinitate von Augustinus liest) diese Verbindung, solange es keine aktualisierte Ausgabe gibt.

Um die Verbindung zu Augustinus zu entdecken, muss man nicht nur den Autor in der Zukunft kennen, sondern auch diese spezifische Edition. Und das gilt in meinem Beispiel nur für einen Autor. Um den Einfluss “at Scale” sehen zu können, müssen wir diese Schritte für jeden zukünftigen Autor wiederholen. Das erfordert zu viel.

Wenn wir aber unsere editorische Praxis wechseln, indem wir unsere Fußnoten mit “Machine Actionable Data Links” statt Text machen, dann können wir die Arbeit von verteilten Editoren automatisch sammeln und folglich diesen Einfluss “at Scale” sehen.

Ein paar Beispiele:

Hier fokussiert man auf eine Target Passage und unmittelbar bekommt man eine Liste (auf der linke Seite) von allen künftigen Passagen, die die Target Passage zitieren.

Bild 1

Und hier ist dieselbe Information aus einer anderen Perspektive:

Bild 2

Schon mit diesem relativ einfachen Ansatz, können wir in Kombination mit Korpus-Metadaten, große Muster erkennen.

Hier, auf dem nächsten Bild (Bild 3), habe ich alle Zitate von Bibelversen in separaten Bibel-Abschnitten gezählt, die in Prologen von “Sentenzen Kommentaren” erscheinen.

Wir können zum Beispiel sehen, dass bestimmte Verse von den Psalmen in Prologus von Petrus Lombardus nicht erscheinen.

Aber plötzlich in Aquinas sehen wir die Nutzung von diesen Versen, und danach die Fortsetzung dieser Nutzung. Diese Fortsetzung der Nutzung könnte den Einfluss von Aquinas auf die folgende Tradition zeigen.

Bild 3

Es ist hier wahrscheinlich hilfreich (ganz Kurz), etwas über die Natur eines Sentenzenkommentars zu sagen, und wie man diese Kommentare studiert.

Das Buch von Petrus Lombard (das “die Sentenzen” heißt) wurde im 12ten Jahrhundert geschrieben und umfasst (insgesamt) 4 Bücher. Jedes Buch hat ein Thema (Gott, die Schöpfung, Christus, die Kirche). Jedes Buch wird in verschiedene Distinctiones (auch mit einem Prologus) gegliedert. Und jede Prologus und Distinctio hat sein eigenes Thema.

Bild 4

Diese Tradition ist so wichtig, weil nach Lombard, so viele Leute Kommentare an jeder Distinctio geschrieben haben. Ungefähr 1600 über 5 Jahrhunderte.

Bild 5

In Bezug auf die Begriffsgeschichte ist diese Tradition eine Goldmine, weil wir eine kontinuierliche Diskussion über ein sehr spezifisches Thema haben. Wenn wir den richtigen Zugang und die richtigen Werkzeuge haben, können wir beobachten, wie viele Begriffe über die Zeit sich ändern. Um den Zugang zu einem so großen und komplexen Korpus zu erleichtern, arbeiten wir u.a. ( unter anderem) mit folgenden Perspektiven:

Bild 6

Dieser Ansatz (Bild 6) hat definitiv Potenzial. Allerdings sind die Daten hier noch unvollständig, weil sie davon abhängig sind, dass die Zitate und Verweise von einem Editor manuell erkannt und markiert werden.

Bild 7

Das erfordert eine Menge Mühe und die volle Teilnahme der editorischen Community. Solche Teilnahme haben wir noch nicht.

In einer Community mit wenigen wahren Anhängern und mit noch weniger Beitragenden, ist der Fortschritt langsam und echte Entdeckungen sind rar.

Denn im Moment verhindert diese Unvollständigkeit nützliche Interpretationen, darum bleiben wir leider meistens (wie wir oben gesehen haben) im Reich von Möglichkeiten.

Entdeckung der Ähnlichkeit mit N-Grams

Weil ich meistens allein arbeite, habe ich erkannt, dass ich andere Ansätze für die Textähnlichkeit-Erkennung ausprobieren muss.

Die Nutzung von N-Grams ist technisch ziemlich einfach, aber ich war überrascht von ihren Möglichkeiten, besonders wenn diese Ngrams mit Metadaten vom Korpus Graph kombiniert werden.

Die Methode funktioniert wie folgt.

Um einen Korpus mit rund 80 Millionen Wörtern zu analysieren, habe ich ein kleines Programm geschrieben, das durch jeden Absatz läuft und jedes einzigartige 4-Gram speichert.

z.B.

“Die Katze ist auf der Matte” hat drei 4-grams

Die Katze ist auf
Katze ist auf der
ist auf der Matte

Jedes 4-Gram wird eine Ressource in einem Graph und verwendet eine Relation/Property, die “sctap:isFoundIn” heißt und diese Property deutet auf jeden Absatz hin, der dieses N-gram enthält.

In “description” Logik, haben wir die Folgende: “Ngram.isFoundIn.Paragraph”

z.B.

Sctar:videturquodnonsic sctap:isFoundIn sctar:para1; sctar:para5; sctar:para10; sctar:para21 .

Grundsätzlich haben wir ein einfaches Wörterbuch (“Dictionary”) gebaut, mit dem man ganz schnell ein N-gram benutzen kann, um jeden Absatz zu finden, der dieses N-gram enthält.

Aber was wir wollen, ist die Ähnlichkeit zwischen Absätzen. Also was wir hier brauchen ist eine Definition von “Ähnlichkeit” oder eine entsprechende Interpretation durch den Datengraph.

In diesem Experiment habe ich selbst vordefiniert: zwei Absätze sind “ähnlich”, wenn sie 6 oder mehr 4-Grams gemeinsam teilen. Anders gesagt, sie sind ähnlich, wenn die “Intersection” von 4-Grams größer ist als 6.

Oder

X is related to Y, if and only if

\(\#\{ a | \forall{n}\forall{x}\forall{y}(IsFoundIn(n,x) \land IsFoundIn(n,y) \land x \neq y \} >= 6\)

Diese Interpretation könnte, übersetzt in eine SPARQL Abfrage, so aussehen:

SELECT (COUNT(*) as ?count) ?start ?target
WHERE {
              ?ngram  ?start .
              ?ngram  ?target .
              FILTER(?start != ?target) .
  }
  GROUP BY ?start ?target 
              HAVING (?count >= 6)

N-gram Visualisierung: Erster Versuch

Die erste Idee, die ich hatte, war diese Abfrage zu nutzen, um, abhängig vom aktuellen Interesse des Lesers, empfohlene Verbindungen anzubieten.

Also, in dem Fall von einem Absatz von De Trinitate von Augustinus, unter der Liste von editorisch erkannten Zitaten (die wir oben gesehen haben), konnte der Computer eine Liste von ähnlichen Absätzen empfehlen.

Bild 8

Hier können das computergestützte Vorgehen und die editorische Arbeit kombiniert werden. Der Computer gibt uns eine Liste von ähnlichen Absätzen und erzählt uns, welche schon von Editoren markiert wurden und welche noch unbestätigt sind.

Diese Methode und Visualisierung sind sehr hilfreich, wenn man mit einer bestimmten Passage im Kopf beginnt. Wenn ich mich schon mit einem Text beschäftige, kann diese Methode auf andere nützliche Passagen hindeuten.

Aber was, wenn ich nicht weiß, wo ich beginnen soll? Was, wenn ich alle Nachnutzungen (nicht nur für eine bestimmte Passage) sehen will? Oder was, wenn ich darauf aufmerksam gemacht werden will, dass eine Passage (die mir vorher nicht bewusst war) wahrscheinlich eine Quelle von vielen Text-Nachnutzungen ist?

Für eine Weile habe ich versucht, diese obige Methode zu benutzen. Ich habe mich von Absatz zu Absatz bewegt, und manchmal habe ich etwas Interessantes gefunden, aber es war immer noch willkürlich.

Was mir gefehlt hat, war eine Vogelperspektive, um die ganze Landschaft zu sehen. Mit dieser Landschaft wollte ich Absätze sehen (von denen ich vorher keine Ahnung hatte), die Nachnutzung oder Einfluss zeigen.

Die Daten waren schon da.

Was ich gebraucht habe, war eine bessere Datenvisualisierung.

N-gram Visualization: Zweiter Versuch

Letzten Sommer habe ich eine coole “Javascript Library” gesehen, die entwickelt wurde, um die Unterschiede zwischen Handschriften-Zeugnisse zu visualisieren

Zuerst habe ich sie genau für diesen Zweck benutzt.

Hier, auf diesem Bild, haben wir jeden Absatz auf der X-Achse und jedes Zeugnis auf der Y-Achse abgebildet. Wir können den Unterschied zwischen jedem Absatz messen und dann diesen Unterschied mit blauer Farbe visualisieren.

Bild 9

Aber dann habe ich gedacht, ich brauche etwas Ähnliches, um diese Vogelperspektive zu sehen. Ich will alle Absätze gleichzeitig sehen, und dann darauf aufmerksam gemacht werden, wann und wo ein Absatz oder ein größerer Abschnitt mit anderen Texten verbunden ist.

Beispiel 1: Zitatsmuster-Entdeckung in der Tradition von den Sentenzen Kommentaren

Also hier auf dem nächsten Bild ist ein Beispiel, wieder mit dem De Trinitate von Augustinus.

Auf der X-Achse ist jeder Absatz in dem De Trinitate. Auf der Y-Achse ist jeder Absatz, der “Ähnlichkeit” mit dem Absatz auf der X-Achse hat.

Die Metadaten des Korpus Graph sind hier wichtig. Diese Absätze auf der Y-Achse sind zuerst in der Datumsfolge angeordnet und dann in der Reihenfolge innerhalb des jeweiligen Textes.

Bild 10

Mit der Datumsfolge können wir versuchen, Quellen und Einfluss zu unterscheiden. Hier auf diesem Bild (Bild 11), wenn einen Absatz von Augustinus Ähnlichkeit mit einem Text hat, der vor Augustinus geschrieben wurde, dann sehen wir diesen Absatz in Rot. Wenn der Absatz nach Augustinus geschrieben wurde, dann sehen wir diesen Absatz in Blau.

Bild 11

Entsprechend, wenn wir eine Spalte ohne Rot und viel Blau sehen, können wir ableiten, dass wir eine Passage sehen, die viel Einfluss hat, weil viele Leute Augustinus direkt zitiert haben.

Wir können auch die Metadaten nutzen, um unsere Vogelperspektive zu fokussieren, zum Beispiel um nur zwei Texte miteinander zu vergleichen.

Hier vergleichen wir den Text von Augustinus nur mit dem Text von Petrus Lombardus.

Was wir am klarsten sehen ist die häufige Nutzung des Mittelteils von De Trinitate und wieder die häufige Nutzung des Letzten Teils (z.B. Bücher 14 und 15).

Bild 12

Wir können auch diese Perspektive umkehren. Hier sehen wir den Text von Petrus Lombardus auf der X-Achse und Augustinus auf der Y-Achse. Ganz schnell sehen wir, dass die Nutzung von De Trinitate sehr früh in dem Text von Petrus Lombardus vorkommt, aber nicht zu oft im späteren Teil.

Bild 13

Außerdem können wir die Korpusdaten benutzen, um verschiedene Textgattungen zu vergleichen.

Hier zeigen wir wieder jeden Absatz von De Trinitate auf der X-Achse, aber dann vergleichen wir jeden Absatz nur mit jedem Absatz in einem Sentenzenkommentar. Die Farbe hilft uns, die unterschiedlichen Kommentaren zu unterscheiden.

Eine solche Perspektive erlaubt uns, Innovation in der Tradition zu erkennen. Wir können immer noch sehen, wie Lombard den Text von Augustinus benutzt hat. Aber jetzt können wir zusätzlich sehen, ob und wie spätere Kommentare diesem Muster gefolgt sind oder nicht. Allgemein setzt sich das Muster von Lombardus fort.

Bild 14

Aber es ist auch möglich, Stellen zu sehen, wo Passagen von Augustinus benutzt werden, die nicht von Lombard zitiert werden, und das zeigt uns Innovation.

Bild 15

In dem folgenden Bild (Bild 16), können wir noch mal die Nachnutzung in jedem Kommentar sehen, aber diesmal wird jeder Absatz in einem Kommentar von einer bestimmten Distinctio gruppiert, mit den Absätzen von anderen Kommentaren, die auch ein Teil derselben Distinctio sind. (z.B. alle Texte der Distinctio 1 (geschrieben vom 12ten bis zum 16ten Jahrhundert) werden zusammen gruppiert. Und danach werden alle Texte der Distinctio 2 (geschrieben vom 12ten. bis zum 16ten. Jahrhundert) zusammen gruppiert. Und so weiter und so fort).

Wir können ganz klar sehen, wie die spezifische Nutzung von “de Trinitate” verschiedenen Themen in verschiedenen Distinctiones entspricht.

Bild 16

Wir können auch sehen, wie die Nutzung in einer “Distinctio” eines Kommentars vom allgemeinen Muster abweicht, das in anderen Kommentaren in dieselbe Distinctio gesehen wird.

Bild 17

Und wenn wir einen Bereich von Interessen (wie diese) gefunden haben, können wir die Metadaten benutzen, um diesen Bereich zu vergrößern.

Hier konzentrieren wir uns nur auf Distinctio 8 in allen Kommentaren.

Wir können sehen, dass es ziemlich traditionell ist, Buch 5 in Distinctio 8 zu zitieren.

Aber später in der Tradition sehen wir Innovation. Plötzlich sehen wir Zitate aus dem Buch 15.

Bild 18

Oder in dem nächsten Bild, jeder Absatz in dem Text von Lombardus ist mit jedem Absatz in jedem Kommentar (wieder von derselben Distinctio gruppiert) verglichen.

Das zeigt uns meistens, was wir erwarten. In den Kommentaren auf Distinctio 1 sehen wir heftige Nachnutzung von Distinctio 1 von Lombardus.

Aber es hilft uns auch zu sehen, wo ein Autor anfängt, sich auf unerwartete Passagen zu verlassen.

Zum Beispiel, ein Kommentator, der kommentiert auf Distinctio 1, der plötzlich beginnt, Passagen von Distinctio 3 zu nutzen..

Bild 19

Beispiel 2: “UNCITED SUCCESSIVE PASSAGE RE-USE”

Schließlich ist hier noch ein anderes Beispiel, auf das ich für eine Weile fokussieren will.

Bislang haben wir uns auf die Nachnutzung von bestimmten isolierten Zitaten fokussiert.

Aber es gibt eine andere Art Nachnutzung in der Scholastischen Tradition. Diese nenne ich “Uncited Successive Passage Re-Use,” das heißt, was wir ein Plagiat nennen würden.

Dieses Bild zeigt uns etwas sehr Interessantes. Aber wir müssen lernen, die Ergebnisse zu lesen.

Bild 20

Bild 21

In diesem Fall wird die Bedeutung klarer sein, wenn wir eine kleine Erklärung über diesen Text und die vorherige Forschung an diesem Text haben.

Der Text auf der X-Achse ist ein Sentenz Kommentar von Petrus Gracilis, der den Text im späten 14. Jahrhundert geschrieben hat.

In 1956 findet Damasus Trapp heraus, dass dieser Text zahlreiche Nachnutzungen aus dem Text von John von Basel enthält.

Trapp schreibt nicht, welche Passagen genau nachgenutzt wurden. Er sagt nur, dass Gracilis meistens Basel kopiert.

Aber besonders wichtig für uns ist die Tatsache, dass Trapp zugibt, dass diese Entdeckung ein glücklicher Zufall war.

“Petrus Gracilis…followed not only the footsteps but the very phrases of Hiltalingen in a way so deceptive that it does not cast the best light on Gracilis. He read secundum Hiltalingen without ever mentioning him. Only by a lucky coincidence [emphasis mine] was I enabled to “unmask” Gracilis’ dubious literary honesty. (See Trapp, Damasus, “Augustinian Theology of the 14th Century,” Augustiniana 6 (1956): 147-274, p. 254.)

Das ist genau der Punkt. Die traditionelle Forschung zeigt Interesse für diese Art Forschungsfragen. Aber die Methoden sind anekdotisch und zufällig. Wir brauchen wissenschaftliche Methoden.

Dass die traditionelle Forschung dieser Art Fragen von der wissenschaftlichen Community wertgeschätzt wird, ist in einem Artikel von Venicio Marcolino von 2008 klar. Marcolino folgt Trapp und versucht die Verbindung zwischen Gracilis und Basel genauer zu machen.

Marcolino bewegt sich durch den Kommentar, Distinctio für Distinctio, Fragen für Fragen, und versucht zu zeigen, wo Gracilis den Text von Basel benutzt hat.

Über diesen Aufsatz (in dem Bild unten gesehen) können wir ein paar Dinge bemerken.

Zuerst ist der Text von Gracilis definitiv keine einfache Kopie von Basel und mischt viele andere Texte und auch viele originelle Wörter mit ein.

Zweitens gibt es viele Fragezeichen, wo Marcolino Nachnutzung erwartet, aber keine Quelle finden kann.

Drittens gibt es komplette Fragen, wo er keine Verbindung sieht, und, von dem Artikel, es sieht so aus, als ob er denkt, es gibt keine Abhängigkeit hier und der Leser soll sich wohl fühlen, abzuleiten, dass hier Gracilis original sein muss.

Bild 22

Also, lass uns zu unserer Datenvisualisierung zurückkommen.

Bild 23

In der Mitte dieses Graph können wir eine ziemlich große rote Schliere sehen. Günstigerweise entspricht diese rote Schliere dem Text von John von Basel. Der Computer zeigt uns automatisch, was Trappp und Marcolino bestätigen.

Aber mit der Hilfe des Text-Network können wir diese Abhängigkeit genauer und mit mehr Transparenz sehen. Mit einem Click, können wir jeden roten Punkt untersuchen.

Bild 24

Bild 25

Der Graph (Bild 26) zeigt uns auch die Lücke in der Nachnutzung. Genau dieser Punkt, wo Marcolino keine Abhängigkeit berichtet hat. (z.B. Frage 30, und 38)

Aber der Graph zeigt uns auch, was Marcolino nicht gewusst hat, und was niemand, ohne einen sehr glücklichen Zufall, nicht hätte wissen können.

Während Marcolino uns den Eindruck gibt, dass hier (in Fragen 30 und 38) Gracilis plötzlich keine Nachnutzung hat, zeigt uns der Graph, dass genau in diesem Punkt, wo keine Abhängigkeit auf Basel gesehen werden kann, sehr starke Abhängigkeit auf einem anderen Text gibt: den Text von Andreas de Novo Castro.

Bild 26

Ein weiterer Schritt.

Die Visualisierung zeigt uns ein interessantes Muster von Abhängigkeit: wenn es substantielle und kontinuierliche Nachnutzung gibt, sehen wir normalerweise ein diagonales Muster. Wenn die Nachnutzung groß ist, wie im Fall von Basel, ist das Muster einfach zu sehen. Aber wenn es kleiner ist und die Vogelperspektive sehr weit ist, kann es schwieriger zu sehen sein.

Aber jetzt, da wir dieses Muster kennen, können wir den Daten Graph benutzen, um dieses Muster im gesamten Korpus algorithmisch durchzusuchen.

	8	9	10
2
3
4	x
5		x
6			x
7
8
9

Genauer gesagt, ein diagonales Muster in dieser Anordnung bedeutet, dass wenn wir von einem Absatz beginnen, der Ähnlichkeit mit einem anderen Absatz hat, dann, wenn wir uns vorwärts bewegen (zum nächsten Absatz, auf der X-Achse), finden wir ähnlichkeit zwischen diesem Absatz und dem nächsten Absatz auf der Y-Achse.

Wir können es so beschreiben.

\[SuccessiveReuse(t) =\] \[\forall{x_n}\forall{y_m}(R(x_{n}, y_{m}) \land R(x_{n+1}, y_{m+1}) \land R(x_{n+2},y_{m+2}))\]

Wir können es ein bisschen ungenauer machen, damit es mehr Clusters findet.

\[SuccessiveReuse(t) =\] \[\forall{x_n}\forall{y_m}(R(x_n,y_m)\] \[\land (R(x_{n+1},y_{m+1}) \lor R(x_{n+2},y_{m+2}))\] \[\land (R(x_{n+3},y_{m+2}) \lor (R(x_{n+4},y_{m+3}))\] \[\land (R(x_{n+3},y_{m+3}) \lor (R(x_{n+4},y_{m+4}))\]

Schließlich, um unsere Ergebnisse zu filtern, können wir ein Threshold innerhalb eines bestimmten Bereiches setzen, um die Stellen, wo viele Clusters sind, zu isolieren. In diesen Beispielen suche ich noch bestimmte Fragen oder Kapitel, die 10 oder mehr Clusters haben.

Also:

\[SubstantialSuccessiveReuse(t) =\] \[\#\{ a | \forall{t}(SuccessveReuse(t)\} >= 10\]

where t = Question or Chapter

Die algorithmisch entdeckten Clusters helfen uns, Nachnutzung zu sehen, die in der Visualisierung schwierig zu sehen sind. Und damit können wir eine zweite Entdeckung machen.

Hier haben wir einen großen Abschnitt von die Summa von Albertus Magnus. Albertus hat so viele Zitate und so viel Einfluss, dass es schwierig ist, einzelne Clusters von fortgesetzte Text-Nachnutzung zu isolieren und zu untersuchen.

Aber innerhalb dieses Morasts kann der Algorithmus Clusters berichten. Hier innerhalb einer Frage von Albertus hat der Computer eine andere Frage von einem sehr unbekannten Autor (Lambertus de Monte), der im 15 Jahrhundert geschrieben hat, der mindestens 22 Clusters von Nachnutzung hat.

Bild 27

Und jetzt, dass wir ein Cluster von Interesse gefunden haben, mit der Hilfe der Metadaten in dem Korpus-Graph, können wir die Visualisierung fokussieren und diese Nachnutzung genauer untersuchen.

Bild 28

Das hier ist noch eine echte Entdeckung. Nirgendwo hat Lambertus den Namen von Albertus erwähnt. Er hat kein Zeichen von Zitierung gegeben. Er hat geschrieben, als ob diese Wörter seine eigenen wären. Aber der Computer findet diese Nachnutzung ohne Mühe.

Auf diese Weise kann ich, ohne Vorwissen, den ganzen Korpus überfliegen und Nachnutzung und Einfluss in den Texten entdecken, von denen ich vorher keine Ahnung hatte.

Hier ist ein Bericht von jedem Text in dem Korpus, mit einer Liste von anderen Texten, die eine Cluster Zahl größer als 10 haben.

Bild 29

Bild 30

Und mit diesem Bericht können wir diesen Korpus überfliegen und die Ergebnisse untersuchen und mehr Entdeckungen machen.

Biking with Calculus

2021-06-15T00:00:00+00:00

I’ve been taking a calculus course of late and have been looking for applications. Besides math, I love to bike, and since biking involves lots of changes, it seems like a good place to experiment with applications of my current calculus knowledge.

In this experiment I wanted to use calculus to answer some questions that often arise during my ride.

I often ride familiar routes, and for those familiar routes I often have a target “total miles per hour average” that I would like to reach. At given point in my route, I will look down at my simple computer and learn that, thus far, I have been averaging 15mph.

But if my goal for the total route is 17mph, I’m usually curious about what it will take during the remainder of the proposed route in order to meet my goal.

Unfortunately, predicting what I will need to do (or whether it is even remotely possible) is not very intuitive. The rate of change in my overall average is dependent on a lot more than just my current average. How quickly I can improve my overall average is significantly affected by how long I have been riding, how close my current average is to my goal average, and how much distance (or time) remains in the overall route. Moreover, the rate of change is constantly in flux as the underlying parameters (overall average, distance traveled, distance remaining) are changing as I continue my ride.

What I would like to do is be able to create a “bike computer” interface that (using its knowledge of my current distance, time, and average, and the amount distance or time remaining in my route) constantly reports and updates the new average I need to maintain in order to meet my goal (as well as the distance or time I will require to meet my goal at my current pace).

Calculus (and integration in particular) will be particularly useful tools for building such an interface.

Let’s start with the general formula that will be needed to in order for my new computer to constantly perform these calculations.

Our overall goal is to reach a target speed. So this is a good place to start.

If our goal is to finish with an average of 17mph, we’re going to need to end with a distance and time that can give us this result.

Since:

\[Speed = \frac{Distance}{Time}\]

we know that we will need something like this:

\[17 = \frac{Distance}{Time}\]

But our challenge is to pick any point somewhere in the middle of the route and, based on the distance covered at that point in time, to pick a new speed that leads us to our desired overall average.

In this case, we know the starting distance (which we will call \(s\)) of the overall distance (\(d\)) (which we also know) and we know the time traveled (\(b\)) at \(T_1\).

But we want to discover the second part (which we will call \(r\) for remaining distance) of \(d\) at \(T_2\) and the additional time required to reach \(T_2\) (which we will call \(x\)) based on the already completed distance \(s\) and initial time \(b\) and, most importantly, the speed required to cover that remaining distance (\(r\)) within the allotted amount of remaining time (\(x\)).

Let’s start by calculating the starting distance (\(s\)) at time \(T_1\) or \(b\).

This is an integral function:

\[\mathrm{d}y = \int_0^b f(x) \mathrm{d}t\]

Again \(b\) is the time (in hours) and \(f(x)\) is the function that describes the change in distance during \(\mathrm{d}t\). In our example \(f(x)\) will be very simple (i.e. the derivative of a linear function, like 15).

But being general here will allow our calculations to not just work with linear functions but later with more elaborate functions (e.g. functions that might describe the average speed at \(T_1\) of a rocket) and will allow our calculations to be even more accurate.

So let’s imagine I’ve been biking for 1 hours (\(T_1=1\) and \(b = 1\)) and my average over that 1 hour has been 15mph (\(f(x) = 15\)). We can compute the distance covered at this point (\(\mathrm{d}y\)) by computing the definite integral: \(\int_0^1 15 \mathrm{d}t\) which becomes \(15(1)\) or 15 miles.

If we want to get to the speed over that hour, we can just divide \(\mathrm{d}y\) by how long I’ve been traveling, \(\mathrm{d}t\); in other words \(\frac{\mathrm{d}y}{\mathrm{d}t}\), or \(\frac{s}{b}\) which equals \(\frac{15}{1}\) or 15 miles per hour.

Ok, but our final goal is \(\frac{17}{1}\) or 17 miles per hour.

So to reach our goal, we’re going to need an overall distance \(d\) (or \(dy\)) that, when divided by the overall time \(b + x\) (where x is the additional time traveled), gives us 17.

But we already know part of the overall function that is going to lead us to \(\mathrm{d}y\). So our question is really what do we need to add to get to our desired result? Or more concretely, how fast do we need to travel over the additional amount of time \(x\). Let’s call this new and unknown rate of change \(g(x)\).

So getting to a \(\mathrm{d}y\) (\(d\), the overall distance) where \(\frac{\mathrm{d}y}{b+x}=17\) is a matter of adding another integral to the value of the already known integral.

\[\mathrm{d}y = \int_0^b f(x) \mathrm{d}t + \int_0^x g(x) \mathrm{d}t\]

And since we know our target average speed (17) is just the overall distance divided by the overall time \(\frac{\mathrm{d}y}{b + x}\) we have the following equation:

\[17 = \frac{\int_0^b f(x) \mathrm{d}t + \int_0^x g(x) \mathrm{d}t}{b+x}\]

Now we’re getting close. We can see our goal \(g(x)\), but before we can solve for \(g(x)\), we first need to find \(x\) or the additional amount of time anticipated in the planned route.

But this a little tricky because I don’t know the time yet. The amount of time it will take will depend on how fast I go or \(g(x)\) which is exactly what I’m trying to find.

However, because I know the route of my overall ride and thus the distance of the overall route, we can describe \(x\) in terms of \(g(x)\) and remaining distance which we have called \(r\).

Again, recall that:

\[Speed = \frac{Distance}{Time}\]

therefore:

\[g(x) = \frac{r}{x}\]

So we just need to find \(r\) or the remaining distance.

And remaining distance will be the total distance of the route \(d\) minus the starting (already travelled) distance \(s\) at \(T_1\).

The starting distance \(s\) can be computed from the speed and time at \(T_1\) which is \(s = f(x)b\)

Putting all this together, we have:

\[r = d - f(x)b\]

And with the help of r, we can now replace all \(x\)’s (the remaining time) with \(\frac{d-f(x)b}{g(x)}\), and then we can solve for \(g(x)\).

Back to our above equation, summing the two integrals:

\[y = \frac{\mathrm{d}y}{\mathrm{d}t} = \frac{\int_0^b f(x) \mathrm{d}t + \int_0^x g(x) \mathrm{d}t}{b+x}\]

This can be now modified to:

\[y = \frac{\mathrm{d}y}{\mathrm{d}t} = \frac{\int_0^b f(x) \mathrm{d}t + \int_0^\frac{d - f(x)b}{g(x)} g(x) \mathrm{d}t}{b+\frac{d - f(x)b}{g(x)}}\]

It’s worth stopping here for a second to recognize this above equation as the important bit. All we have left to do is plug in our known quantities and solve for g(x). But the abstract equation here helps us see that this equation should work in any scenario, even if the parameters are very different or f(x) is a very complicated function or even if g(x) needed to be variable function and not just a constant.

With that in mind, let’s solve our original practical problem with our known quantities.

If my goal remains 17mph and the overall route is 30 miles and \(T_1 = 1\) and my average at \(T_1 = f(x) = 15\), then

\[17 = \frac{\int_0^1 15 \mathrm{d}t + \int_0^\frac{30-15(1)}{g(x)} g(x) \mathrm{d}t}{1+\frac{30-15(1)}{g(x)}}\]

which reduces to:

\[17 = \frac{15(1) + \frac{g(x)(30-15(1))}{g(x)}}{1 + \frac{30-15}{g(x)}}\]

As the \(g(x)\) in the top fraction cancels out and a few more sums can be simplified, we can further reduce to:

\[17 = \frac{15 + (30-15)}{1 + (\frac{30-15}{g(x)})}\] \[17 = \frac{15 + 15}{1 + \frac{30-15}{g(x)}}\] \[17 = \frac{30}{1 + \frac{15}{g(x)}}\]

Cross multiply to get:

\[17(1 + \frac{15}{g(x)}) = 30\]

Distribute:

\[17(1) + 17(\frac{15}{g(x)}) = 30\]

And then solve:

\[17(\frac{15}{g(x)}) = 30-17\] \[17(\frac{15}{g(x)}) = 13\] \[\frac{15}{g(x)} = \frac{13}{17}\] \[15 = \frac{13}{17}(g(x))\] \[\frac{15}{\frac{13}{17}} = g(x)\] \[15(\frac{17}{13}) = g(x)\] \[19.615 = g(x)\]

Thus after traveling 1 hour at an average of 15 miles per hour, with only 15 miles left, I would need to average 19.615 mph over the next 15 miles to reach my goal of an overall average 17 mph for the entire trip.

The entire above set of calculations can be automated based on various input parameters and from there we get the BikeComputer Application which can provide a range of outputs depending on inputs.

Here you can see that given my average speed of 15 mph over 1 hour with 15 miles remaining, the speed needed to reach goal is calculated to be exactly what we concluded above 19.615.

But the computer shows more. It shows that if I persists at my current pace of 19mph over the next 15 miles, I will need 19 miles (not 15) to reach my goal, and that at the end of the remaining 15 miles I will only have achieved an average of 16.764 mph falling about 0.24 mph short of my goal.

Suchen und Finden von Bildern: Wie ein Text-Netzwerk ein Bild-Netzwerk werden kann

2020-11-05T00:00:00+00:00

In Bezug auf IIIF und Discovery will ich nur einen Gedanken vorbringen und diesen dann illustrieren.

“Discovery of IIIF Resources” (Bildfindung) ist momentan in der IIIF-Gemeinde ein wichtiges Thema. Aber diese Discovery ist normalerweise die Entdeckung eines Buches oder einer Seite innerhalb eines Buches. Ich kenne den Titel ein Buch oder Handschrift, wie kann ich jetzt dieses Buch mit IIIF sehen? Das ist die übliche Frage.

Diese Fokussierung ist nachvollziehbar. Die IIIF Presentation API wurde schließlich für solche physischen Objekte gebaut. Und selbstverständlich zielen die ersten “Viewers” (die IIIF fördert) darauf, diese Objekte im virtuellen Raum zu zeigen. Das ist nicht falsch. Die Entdeckung eines IIIF Manifests bleibt wichtig.

Was ich hier vorbringen möchte, ist allerdings, dass diese Art von Entdeckung begrenzend ist. Sie begrenzt unsere Vorstellung davon, was ein Objekt ist oder sein kann. Und deswegen begrenzt sie unsere Vorstellung davon, was entdeckt werden kann und auf welchem Weg es entdeckt werden kann.

Wenn wir erkennen, dass der Inhalt eines Bildes (ich spreche hier von Bildern, die Texte beinhalten) mit Objekten in der Form von Text-Ideen erfüllt wird, dann werden wir neue Kandidaten für Entdeckungen finden.

Ich will Ihnen das zeigen.

In diesem Fall beginne ich nicht mit Bildern, sondern mit Texten. Diese beinhalten sowohl verborgene Idee-Objekte (wie Zitate, Verweise, Abschnitte) als auch Verhältnisse (wie Nächstes, Vorheriges, Zitiert von, Beeinflusst von, und so weiter).

Wenn wir unsere Texte in einer Weise herausgeben können, dass diese Text-Objekte erkannt und in “Machine Actionable” Ressourcen verwandelt wurden, dann haben wir ein Text-Netzwerk. Wir können diesem Netzwerk vorwärts und rückwärts folgen.

So zum Beispiel, wenn ein Text “A” auf einen Bibel(f)vers B verweist oder ihn zitiert, wissen wir nicht nur, dass dieser Text diesen Bibelvers zitiert, sondern wir wissen auch, dass dieser Bibelvers B von Text A zitiert wurde. Das bedeutet, dass wir einen “bi (bee) direktionalen Link” haben. Und von dem Bibelvers B können wir alle Zitate dieses Verses in ihren historischen Verwendung sehen.

Nicht das:

Aber das:

Aus diesen bidirektionalen Links entsteht ein Text-Netzwerk. Hier fragen wir beispielsweise nach jedem Zitat von einem Vers aus dem ersten Korintherbrief, Kapitel 13.

Aber wir sind noch nicht fertig.

In der Textkritik ist es ein Ziel des Herausgebers, Transparenz zu erreichen. Der Herausgeber sucht nach den Zeugen für einen Text und arbeitet darauf hin, diesen Beweis dem Leser transparent zu machen. IIIF ist hierbei eine erhebliche Hilfe. Denn es gibt uns die Chance, mit Bildern diese Transparenz zu erhöhen.

Aber was sind die Text-Zeugen? Aus einem historischen Blickwinkel ist die Bibel nicht nur der einzige Zeuge für einen Bibelvers. Jedes Zitat ist eine Art von Zeuge. Das Zitat ist ein Fenster dahin, wie ein Vers in einer spezifischen Zeit gesehen und gelesen wurde.

Aber wie können wir diese Zitate in einen kritischen Text bringen, und wie können wir die Bilder von diesen kleinen Zitaten, verborgen in vielen großen Bänden, entdecken?

Wenn wir uns vorstellen, dass ein Bild von einer Seite nicht ein einziges Bild ist, sondern eigentlich ein Behälter von einer unbegrenzten Menge von überlappenden, kleineren Bildern, dann haben wir neue Möglichkeiten: neue Ressourcen zu entdecken und neue Verbindungen zu schaffen.

Hier wird die IIIF Image API unumgänglich. Die IIIF Image API gibt uns die Möglichkeit, kleine Teile von einem großen Bild auszuwählen und viele verschiedene kleine Bilder zu schaffen.

Dann ist es möglich, mit unseren Text-Objekten und unserem Text-Netzwerk Verhältnisse zwischen einer Text-Idee und den entsprechenden kleinen Bildern, die diese Idee beinhalten, zu erschaffen.

Eine Eigenschaft von einem Text-Objekt (Zitat) ist die Zeile innerhalb einer Seite, wo das Text- Objekt steht. Diese Information genügt, um automatisch kleine Bilder “on the fly” zu erschaffen.

Man kann diese Verbindung in dieser Folie sehen.

Mit diesen Verbindungen können wir unsere Kenntnis vom Text-Zitat Netzwerk nutzen, um all die Bilder-Zeugen von einem Bibelvers in einem Bild-Netzwerk zusammenzubringen, die durch die jahrhundertelange Geschichte von wissenschaftlichem Diskurs überall verstreut sind.

Und das kann man hier sehen.

Das Gif oben zeigt mehr als 67 Zitate von mehr als 16 verschiedenen Autoren mit Bildern, die von mindestens 10 verschiedenen Institutionen stammen.

Jetzt, wenn man die Bibel liest, kann man automatisch jedes Zitat in der Zukunft der Textgeschichte sehen, vergleichen, und dann mit perfekter Transparenz die Bilder hinter jeder Transkription von einer IIIF Institutionen abrufen und direkt sehen.

Und gewiss können wir diesen Entdeckungsprozess in entgegensetzter Richtung nachvollziehen. Von dem Text jedes Bibelvers können wir zu den Bild-Fragment gehen, und davon zu der Seite (oder IIIF Canvas), wo das Fragment steht, und dann weiter zu dem Buch (oder IIIF Manifest), das die Seite beinhaltet.

Stop drawing boxes: automating IIIF annotations through text objects

2020-06-03T00:00:00+00:00

Introduction

In this short post, I want to share with the IIIF manuscript community some of the research possibilities that IIIF enables.

But I also want to be a little provocative and point out that IIIF alone does not automatically guarantee these outcomes. Much depends on how we use IIIF in the midst of larger data modeling and data workflows.

More specifically, genuine research advances depend on the kinds of annotations we make and the kinds of relationships that are created through these annotations.

I titled this post “stop drawing boxes” to address the understandable temptation that most IIIF viewers create to directly annotate transcriptions of text objects onto regions of a page.

Most IIIF viewers privilege the book form, and thus they prioritize the hierarchy of the medium (books, quires, folios, and folio sides) over other hierarchies such as the hierarchy of the content carried (or manifested) by the medium.

Without denying the value and importance of this perspective, a great deal of research is interested in manuscripts, because they function as forensic witnesses to something more abstract, namely the textual idea.

But the material focus of these viewers (evidenced by their orientation around the “page” as the fundamental unit of presentation), combined with the easy to use annotation tools that accompany them, invites us to make transcription annotations about textual phenomenon through directly targeting a material region on a page rather than a textual idea.

For me, this is a conceptual confusion that at first seems benign but results in lost potential.

This loss of potential is to my mind a partial explanation for a complaint I hear from time to time within the IIIF community: namely, why haven’t we been able to get more scholars excited about the potentials of IIIF?

But I think we have to be honest. If we allow IIIF to become synonymous with zooming images or the mere ability to add comments to a page, then we do IIIF a disservice. Image navigation and direct annotation is not much different than the experience offered by a PDF or common desktop image software. But IIIF, combined with rigorous thinking/modeling of the content carried by the manuscript page, can enable much more.

Automated generation of meaningful comparison

Thus, let me offer one concrete example.

A selling point of IIIF and a viewer like Mirador to the manuscript community is the possibility of enhanced comparison that should enhance research.

Such comparison is common work in the world of forensic critical textual studies and in source identification work, i.e. tracking the original composition and re-use of textual passages, from biblical passages, to Aristotelian quotations, or to passage re-use among contemporaries and colleagues.

As evidence here, I point to an article from 2008 by Venicio Marcolino.

In the image below Marcolino attempts to trace and identify parallels between two texts in the fourteenth century, each of which survive in manuscript witnesses, one at the British Library, the other at the BSB.

Thanks to IIIF, it is easy to bring these witnesses together.

But it doesn’t automatically make comparison easy. These are large manuscripts filled with a lot of content. It takes a tremendous amount of labor to find units of texts within each respective manuscript to create meaningful comparison.

One might object that this where a table of contents can help us facilitate comparison.

But this misses the point for two reasons.

First because the points of comparison pointed to here are granular and precise. Even a very precise table of contents (which when done manually is unrealistic to expect) typically only gets us to a page on which a text object is somewhere to be found, which then must be again discovered in a separate manuscript on a separate folio in order for the comparison to be made. (The orientation here is to discover pages when the users really want to find textual ideas.)

Once found, the temptation is to “draw a box” and mark the conceptual point of comparison.

This is my plea. Please don’t do this!

Think about what you are you trying to mark. There is a better way.

This leads to the second reason the objection about using a table of contents misses the point.

Comparison facilitated via table of contents navigation or direct image region annotation misses the point because the entire approach is predicated on the underlying assumption that a human being has already discovered the points of comparison and now we simply want to record what we already know with the book page coordinate system.

The ability to record this is a valuable thing that IIIF lets you do. But I wouldn’t regard it as earth shattering. It is certainly something I could approximate with a PDF, and if I’m a researcher with an already established practice of using PDFs to mark my discoveries, I’m unlikely to change my practice just because IIIF sounds cooler than PDF.

However, IIIF, accompanied by the right kind of textual modeling, can do much more.

It can be a piece in a larger workflow that enables the automated discovery and annotating of granular and directly comparable image units.

By focusing our transcription annotations on text objects rather than image regions, we can automate the discovery of textual parallels and then trace these parallels back to the media that manifest or carry them.

Modern computer vision algorithms are fairly reliable at capturing the lines of a text, so let’s let the computer do this work.

But they are not going to capture textual units that are not represented visually.

So let’s separate this work. Instead of attaching text transcriptions to lines, let’s attach our transcriptions to textual units and then map those units to lines.

From here, as the above image shows, we can easily move from any textual object to any corresponding regions on any sister witnesses to the same textual idea.

Further, as seen below, as we discover other kinds of parallels between textual ideas, we can move out to these as well and discover where these textual ideas manifest themselves in corresponding witnesses.

Now that we have the transcription organized according to textual units rather than broken up by the material line, we can automate the comparison of logical chunks.

The script below loops over all the paragraph chunks in the Gracilis text and calculates a comparison to every paragraph chunk in the Basel text.

Results could be output as annotations, which can be loaded into a viewer.

Text transcriptions can then be easily compared at a granular level to inspect the results.

For each of the 22 total parallels identified by Marcolino, the computer first discovered between 1 and 9 possible Basel matches out of a possible 1,227. After filtering by the highest percentage matches per paragraph, the computer correctly identified 19 out of the 22 connections. But this high percentage of 86% also hides the fact that in many cases the computer has identified matching passages with much more precision than Marcolino, and even on one occasion corrected parallels asserted by Marcolino.

And accordingly, by targeting a text passaged that can be mapped to each other and manuscript regions, we can easily move from here to each of the precise image regions carrying/manifesting this text passage. See below.

I would like to stress here that the regions coordinates seen here were never manually mapped. They were constructed from combining the auto-generated line coordinates with the semantic structuring of the content text into logical chunks.

In this way, these results, unlike Marcolino’s, are fully transparent. I’ve not only discovered in seconds nearly all the connections asserted by Marcolino with more specificity, but I’ve also in the very same act connected the manuscripts from the BSB and the British Library at a useful level of specificity.

Finally, we might note how this could scale.

Here, I’ve run the same n-gram similarity algorithm for a verse in the Bible Hebrews 11:1.

These results can be confirmed and then be indexed. Now I not only have a corpus index of texts that cite Hebrews 11:1, but I also have at the same time a global index of manuscript regions that target the precise lines where this quotation appears.

All of this without ever drawing a box!

In short, what we see here is a reversal in the traditional path of discovery. In the pursuit of viewing a particular quotation, we normally use the reference system of manuscript number, and then a folio number, and then perhaps, if we are lucky a line number.

Instead, we are now targeting the quotation directly as a textual idea, which can then self-report on what regions, pages, or manuscripts it may be found.

Forscher und Institutionen via IIIF verbinden

2018-10-15T00:00:00+00:00

Danke ihnen. Ich bin sehr froh hier zu sein und ich freue mich Ihnen ein bisschen erzählen zu dürfen, warum IIIF wichtig für Forscher der mittelalterlichen Geistesgeschichte ist und warum IIIF ein Mittel sein kann, die Zusammenarbeit zwischen Forschern und Kulturerbe-Institutionen effizienter zu gestalten.

Ich leite ein digitales Archiv, zusammengesetzt aus Text-Daten, die ein mittelalterliches scholastisches Korpus repräsentieren. Dieses Archiv heißt die Scholastic Commentaries and Texts Archive (oder kurz SCTA) und ist Teil von einem Projekt, Text-Daten verfügbar zu machen, die in den mittelalterlichen Handschriften versteckt sind. Und wir versuchen das auf eine wissenschaftliche Art und Weise zu tun.

Dieser wissenschaftliche Anspruch erzeugt den Wunsch nach Vollständigkeit und Transparenz. Eine wissenschaftliche Edition in der digitalen Welt hat das Potenzial, jede editorische Entscheidung transparent zu machen. Ein Forscher muss nicht mehr nur auf die Interpretation eines Editors vertrauen, sondern kann in die Lage versetzt werden, den Kontext jeder editorischen Entscheidung wiederherzustellen und diese Entscheidung nachzuvollziehen.

Obwohl dies sehr attraktive Möglichkeiten sind, bleiben sie nur Theorie ohne die Kooperation der weltweiten Forschungsgemeinde.

Dazu müssen wir die Frage stellen: welche Anreize haben die Institutionen, solche Kooperationen einzugehen? Sie geben wahrscheinlich zu, dass es sehr toll sein würde, wenn Forscher diese Art von Editionen machen würden. Aber eine Selbstverpflichtung zu einer weltweiten Kooperation wie überhaupt jeder Wechsel zu einem neuen Ansatz kann teuer und schwierig sein, also müssen wir auch die Vorteile klar machen.

Meine These ist, dass, wenn wir uns selbst genügend organisieren und wenn wir die richtige Technologie haben, d.h. wenn wir Daten nach allgemeinen Standards öffentlich machen, bekommen die Kulturerbe-Institutionen gleich viel oder sogar mehr zurück als sie investiert haben.

Im Folgenden versuche ich diese Möglichkeit mit einem ausführlichen Beispiel zu illustrieren.

Einer der zentralen Texte der SCTA stammt aus dem zwölften Jahrhundert. Es ist eine Sammlung von „Sentenzen“ von einem gewissen Petrus Lombardus. Dieser Text wurde die ganzen folgenden Jahrhunderte hindurch von mittelalterlichen Autoren genutzt und kommentiert.

Im Rahmen eines Versuchs, ein möglichst vollständiges Bild dieser Kommentartradition zu erhalten, versuchen wir, alle Zeugen von diesem Sentenzen-Text zusammenzubringen. Wir versuchen nicht nur Verweise zu machen, sondern die Zeugen verfügbar zu machen und Möglichkeiten zu bieten, sie auf einer Plattform direkt miteinander zu vergleichen.

Das Problem ist natürlich, dass keine einzelne Institution alle diese Zeugen besitzt. Im Gegenteil: sie liegen auf der ganzen Welt verstreut. Bei dieser Ausgangslage hat keine Institution Lust, Anreiz oder Geld, eine komplette Sammlung anzustreben. Die Forscher hingegen hätten natürlich Interesse daran, aber sie haben weder die Ressourcen, all die Zeugen zu sammeln, noch eben die Zeit, all diese Handschriften einzusehen und zu studieren. Meistens werden daher starke Kompromisse eingegangen. Einige besondere Handschriften werden ausgewählt und der Rest der Überlieferung wird übergangen. Obwohl solche Auswahlen nachvollziehbar sind, wird der Traum von Vollständigkeit doch geopfert und viele kleine, aber wichtige Handschriften bleiben vergessen und werden nicht in die Kommentartradition integriert. Und, weil sie mit dem Rest der Überlieferung nicht verbunden werden, sind sie schwierig zu studieren und entsprechend kaum zu würdigen. So stehen sie isoliert und abgetrennt von der Tradition, in der sie eigentlich von Bedeutung wären.

Ein Beispiel gibt es hier in Leipzig: ein kleines Fragment eines winzigen Teils von Petrus Lombardus’ Sentenzen. Unter dem üblichen Druck von Geld und Zeit würde dieses Fragment vergessen werden. Aber im Zusammenhang der ganzen Überlieferung und als Vergleichsgröße für diese wäre es trotzdem wichtig. Denn es ist ein einzigartiger Zeuge mit Teilen einer Marginalglosse, der in der Tat ein Unikat sein dürfte. Kurz gesagt: beim gerade beschriebenen, herkömmlichen Zugang vernachlässigen wir sie nicht etwa, weil sie nicht wichtig wäre, sondern weil die Zugangshürde zu hoch ist, um den Aufwand zu rechtfertigen.

Mit IIIF sieht die Lage anders aus. Ein einzelnes Bild von diesem Zeugen, zur Verfügung gestellt vom Fragmentarium-Projekt in der Schweiz, wird für mich als Forscher unmittelbar nutzbar. Auf diese Art und Weise können wir alle mit unseren verschiedenen Interessen gewinnen. Denn Leipzig hat natürlich ein Interesse an all den Handschriften, die in Leipzig sind, Fragmentarium hat ein allgemeines Interesse an Fragmenten weltweit, und die SCTA hat ein Interesse an all den Handschriften, die Lombardus Text enthalten.

Hierzu kann ich ein Beispiel zeigen.

Hier können Sie sehen, dass ich nach allen Handschriften gefragt habe, die Lombardus Text enthalten, aber die auf der ganzen Welt verstreut liegen, doch mit der Hilfe von IIIF habe ich alle diese Zeugen an einem Ort vereint. Stellen Sie sich einen Forscher vor, der kein Interesse an Fragmenten hat und keine Ahnung hatte von der Sammlung in Leipzig. Plötzlich, durch sein Interesse an Lombardus und an bereits bekannten Handschriften entdeckt er eine neue interessante Handschrift und hat unmittelbar Zugang dazu. Ohne IIIF und die Kooperation von Kulturerbe-Institutionen würde diese Entdeckung unmöglich bleiben.

Es geschieht etwas, wenn man einen neuen Gegenstand innerhalb eines Beziehungsnetzes, das schon Bedeutung hat, entdecken kann. Plötzlich generiert auch er ein Interesse, das er in einem anderen Zusammenhang nicht haben würde.

Und wenn wir die Werkzeuge gleich zur Hand haben, um etwas mit diesem Gegenstand anfangen zu können, ist es wahrscheinlicher, dass wir wirklich damit arbeiten.

In meinem Fall, wie Sie hier sehen können, habe ich einen einfachen Text-Editor kreiert, mit dem man schon existierende Transkriptionen benutzen kann, um eine neue Transkription zu erstellen, die alle Varianten in diesem Fragment festhalten kann.

Und mit dieser neuen ergänzenden Information können wir dieselbe Information als Annotationen benutzen und teilen.

Hier kann man sehen, dass das Inhaltsverzeichnis einer Edition eine Navigationshilfe für Handschriften werden kann.

Und der Text einer Edition kann ein Hilfstext werden, der es leichter macht, die Handschrift zu erforschen.

Hier kann man auch sehen, dass der Text die Basis für einen Suchdienst werden kann, mit dem man in der Handschrift navigieren kann.

Aber diese Informationen sind nicht begrenzt innerhalb irgendeiner bestimmten Website oder eines Interfaces. Sie sind frei und verfügbar zur Verwendung und Wiederverwendung.

Beispielsweise können wir statt in einer Bild-zentrierten Applikation wie Mirador dieselben Daten ein zweites Mal in einem Text-zentrierten Interface anzeigen, bei dem die Bilder nunmehr als Annotationen erscheinen.

Hier können wir verschiedene Versionen des Textes sehen und die Bilder als Evidenz für die editorischen Entscheidungen konsultieren. Hier können Sie sehen, dass ich den Text vom Leipzig Fragment zeige.

Und es ist genauso leicht das Leipzig Fragment zu zeigen wie eine ganze andere Handschrift, die, zum Beispiel, in Baltimore ist.

Und mit dem Text von diesen Handschriften können wir leicht Text vergleichen.

Dazu kann ich in einer ganz anderen App sein und diese Daten abermals in einer neuen Form antreffen. Diese App wurde entworfen, um Zitate zu studieren. Und wenn ich nach einem spezifischen Zitat suche, finde ich nicht nur den Text, sondern Zugang zu dem Text in jeder Handschrift und auch den jeweiligen Bildern jeder Handschrift.

Und wieder kann ich dieselbe Zitat-Information, die hier aus der SCTA stammt, und die IIIF-Canvas Information, die aus verschiedenen Kulturerbe-Institutionen stammt, benutzen, und damit eine neue Art “IIIF Manifest” erschaffen; ein “Manifest”, das alle “Canvases” zeigt, die ein spezifisches Zitat enthalten.

Oder ein “Manifest” dass alle “Canvases” zeigt, die eine Randnotiz enthalten. Ich glaube, es ist nicht schwierig sich vorzustellen, wie nützlich ein solches Manifest sein kann. Wenn eine Forscherin oder ein Forscher Interesse an der Geschichte von Fußnoten oder Zitations-Praktiken hat, würden sie ein solches Manifest sehr wertvoll finden.

Aber lassen Sie uns am Ende zur ursprünglichen Frage zurückkehren. Es ist sehr nett, dass die Mitarbeitenden dieser Institutionen diese Beispiele in IIIF ermöglichen. Aber was bekommen diese Institutionen zurück? Jenseits der Nutzung von ihren Bildern durch das Internet hindurch ist es auch für diese Institutionen möglich, Daten zurück zu bekommen, welche andere Forscher weltweit inzwischen erzeugt haben.

Im Prozess der Erarbeitung einer kritischen Edition, generieren Forscher oft tausende kleine Datensätze, die von hoher Relevanz für die verstreut liegenden Handschriften sind. Es sind viel zu viele Daten, um sie in ein Buch aufzunehmen, aber wenn die Informationen von den Grenzen eines statischen Buchs befreit sind, können sie zahlreichen Nutzern von einzelnen Bibliothekssammlungen weiterhelfen. In der Vergangenheit hatten wir keine sinnvolle Möglichkeit, diese Daten den Institutionen zurückzugeben, und aus diesem Grund haben wir verworfen, was sich nicht in ein Buch einfügen ließ.

Um diese Situation zu verbessern, haben wir eine Methode entwickelt, damit Forscher und Forschungs-Gemeinden via IIIF Bibliotheken und Museen informieren können, wenn sie Daten erschaffen haben, die zu ihren Sammlungen in Beziehung stehen. Und wir haben einen Ansatz entwickelt, dass IIIF Viewers (wie Mirador) diese Daten nahtlos in ihrer Nutzeroberfläche importieren können.

Lassen Sie mich mit ein Paar Beispielen aufhören:

Hier können Sie sehen, dass ich mit einer Suche bei Fragmentarium (oder Universität Leipzig) anfange. Ich entdecke eine Handschrift von Interesse und ich importiere diese Handschrift in Mirador. So weit so gut. Ich kann diese Handschrift erforschen, aber es ist noch schwierig, darin zu navigieren. Ich brauche ein Inhaltsverzeichnis und Transkriptionen. Es wäre schade, wenn Fragmentarium oder andere Institutionen diese Information erzeugen müssten, denn ich habe diese Information schon erarbeitet als Teil von meiner Forschung.

Aber mit IIIF und einer Technologie, die „Linked Data Notifications“ heißt, kann ich jetzt eine Mitteilung machen, und durch diese Mitteilung sind meine Forschungsdaten verfügbar und verbunden mit diesen Bildern von Fragmentarium.

Nachdem ich, als Forscher, eine Mitteilung gemacht habe, kann ein anderer Nutzer in einem vollkommen verschiedenen Zusammenhang, vielleicht auf der Website von einer Bibliothek oder anderen Institution, Zugang zu dieser Information haben.

Also, hier können Sie den Text sehen, wie er bei Fragmentarium scheint, mit minimalistischem Inhaltsverzeichnis und ohne Transkription.

Aber jetzt nach meiner Mitteilung kann ein Nutzer, ohne mich oder die SCTA zu kennen, per Klick eine Liste von verfügbaren ergänzenden Forschungsdaten bekommen.

Und dann, mit einem Klick, kann die Nutzerin oder der Nutzer entscheiden, ob er diese Information importieren will oder nicht.

Ich bin der Meinung, dass wir hier nur den Anfang dessen sehen, was Möglich ist. Aber ich hoffe, deutlich gemacht zu haben, dass wir diese Möglichkeiten nur realisieren können, wenn wir zusammenarbeiten. Konkret bedeutet dies, dass wir allgemeinen Standards wie IIIF folgen müssen. Aber ich hoffe, ebenso klar gemacht zu haben, dass diese Arbeit sich lohnt. Die zusätzliche Mühe, die gefordert ist, um diese Möglichkeiten zu realisieren, zahlt sich [fast schon] automatisch aus, und alle können gewinnen: sowohl die Kulturerbe-Institutionen als auch die Forschenden und die Forschungs-Gemeinden.

Jetzt freue ich mich auf Ihre Fragen und ich bin auch gerne bereit, einige meiner Demonstrationen mit ein bisschen mehr Details zu zeigen.

SCTA und Topic Modelling: ein DAAD Bericht

2018-10-15T00:00:00+00:00

SCTA und Topic Modelling: ein DAAD Bericht

Mit der Explosion von Daten wird die Frage der Zukunft nicht sein, “Ist dieser Text oder sind diese Daten verfügbar?”, sondern “Können wir diesen Text oder Text-Teil finden in dem Stapel dessen, was verfügbar ist?”

Die wissenschaftliche Gemeinde lagert diese Aufgabe der adäquaten Auswahl von Informationen auf eigene Gefahr aus. Wenn Daten theoretisch verfügbar sind, aber noch nicht auffindbar, dann ist dies ein Problem von Kuration. Wenn wir tausende oder sogar Millionen Ergebnisse haben, können wir nicht alle diese Ergebnisse untersuchen. Wir müssen auswählen und das ist Kuration. Kuration ist eine Art von Auswahl beruhend auf Grundsätzen. Wissenschaftliche Entdeckung fordert Kuration beruhend auf wissenschaftlichen Grundsätzen. Diese Kuration auszulagern und zum Beispiel Google zu überlassen, heißt, mit unwissenschaftlichen Ergebnissen zu arbeiten. Wir, die Fachleute, müssen die Verantwortung wieder übernehmen, die neuen digitalen Ansätze zu lernen und anzuwenden, so dass wir in der Lage sind, an der Aufgabe von Kuration teilzunehmen.

Mithilfe des Deutschen Akademischen Austausch-Dienstes habe ich als Leiter des SCTA (Scholastic Commentaries and Texts Archive, https://scta.info) einen ersten Schritt in diese Richtung gemacht, einen ersten Versuch, diese Verantwortung zu übernehmen.

Anfang Oktober 2018 habe ich mit meinem Kollegen Dr. Thomas Köntges bei der Digital Humanities Lab an der Universität Leipzig versucht, einen Ansatz des “Natural Language Processing” Ansätze, nämlich das sogenannte “Topic Modelling”, auf das SCTA Korpus anzuwenden.

Die Grundidee ist, dass wir mit der Kombination von Computer-Rechenleistung und Fachkenntnis ein Profil jedes Absatzes im Scholastik-Korpus bauen können. Mit diesen Profilen können wir erwartete und unerwartete Verbindungen im gesamten Korpus entdecken.

Nichts von dem wäre möglich gewesen ohne die Fachkenntnis und Zusammenarbeit mit Dr. Thomas Köntges. Dr. Köntges hat eine wichtige Applikation entwickelt, die “ToPan” heißt und mit der man Texte analysieren und “Topics” erschaffen kann.

In dem Bild unten kann man ein Beispiel eines Topics sehen, das von Dr. Köntges Applikation “ToPan” erzeugt wurde.

Mit diesen Topics oder Themen kann man dann dieses Korpus unterscheiden und sortieren.

Die Frage ist nur: Wie kann man ein so riesiges Korpus wie das SCTA Korpus automatisch in diese Applikation eingeben? Um das zu schaffen, habe ich ein “CSV API” für das ganze SCTA-Korpus erzeugt. Dieses API macht Millionen von Lateinischen Wörtern, die in scholastischen Texten gefunden werden, in einer Form verfügbar, die eine Applikation wie “ToPan” verstehen kann.

Der nächste Schritt, bevor diese Ergebnisse nützlich sein werden, ist diese Ergebnisse in solcher Weise zu veröffentlichen, dass sie von anderer “Client Applications” gebraucht werden können. Dr. Köntges hat schon eine weitere Applikation entwickelt, die Metallo heißt, um diese Ergebnisse darzustellen. Zusammen haben wir diese Applikation modifiziert, so dass sie die Ergebnisse als nützliche Daten verfügbar machen kann, nämlich als “JSON data”.

Nach diesen Schritten waren wir jetzt in der Lage, diese Ergebnisse zu benutzen, um unseren Text und Suchdienst zu verbessern.

Die offensichtlichste Anwendung von diesen Absatz-Profilen ist, Nutzern zu erlauben, Suchergebnisse nach Themen zu gliedern und zu sortieren. Auf diese Art und Weise vermeiden wir unwissenschaftlichen Gebrauch von Suchergebnissen, worin wir nur die ersten Suchergebnisse wählen, weil sie zuerst vorkommen, und nicht, weil sie die besten sind oder (sie) am Besten zu unserer Forschung passen.

Zum Beispiel kann man in dem ersten Bild unten eine Liste von unsortierten Suchergebnissen sehen. Der Suchdienst hat das Ergebnis “potentia absoluta” in vielen verschiedenen Absätzen gefunden, aber das Absatz-Profil und ein verbundenes Thema weisen darauf hin, dass die folgenden Absätze dieselbe Phrase, “potentia absoluta”, in drei verschiedenen Diskussionen benutzen.

Ein einfaches Beispiel wäre: eine rohe Suche für das Wort “Leiter”, die Absätze zurücksendet, die sowohl etwas mit einem Bergsteiger als auch mit einem Chef von einem Geschäft zu tun haben. Mithilfe von Topic Modelling können wir diese verschiedenen Diskussionen sortieren, wie man in dem zweiten Bild sehen kann.

Hier kann ein Nutzer ein Topic auswählen und nur die Absätze sehen, die etwas mit dieser Diskussion zu tun haben.

Aber die Sortierung von Suchergebnissen ist nur der Anfang.

Mithilfe von einem Profil für jeden Absatz zielen wir darauf, einen Empfehlungsdienst zu bauen. Solch ein Dienst sollte einen traditionellen Anspruch erfüllen, nämlich, die Fähigkeit Nutzer zu verknüpfte Diskussionen zu führen.

In diesem Bild können wir sehen, dass das ein traditionelles Ziel ist.

Cremona 1618 https://books.google.com/books?id=h2IUiZ6aYZUC&pg=PA66#v=onepage&q&f=false

Viele weitere Beispiele aus dem 16. und 17. Jahrhundert könnten gefunden werden.

Aber dieser Anspruch hat sogar bis in die moderne Zeit angehalten.

Das Skolion der Ausgabe von Bonaventure aus dem späten 19. Jahrhundert ist ein treffliches Beispiel.

Diese Arten von Verbindungen sind wichtig. Sie machen uns den größeren Zusammenhang bewusst. Einige Verbindungen könnte ein Fachmann / eine Fachfrau vorhersehen. Wir können erwarten, dass ein Kommentar zu Distinctio 17 sich auf viele andere Kommentare zu Distinctio 17 beziehen kann.

Aber unsere Erwartungen sind auch unsere Grenze, denn wir suchen Verbindungen nur dort, wo wir diese erwarten. Und offensichtlich bleiben uns jene Verbindungen verborgen, die wir nicht erwarten.

Die Hilfe, hier von wohlmeinenden Herausgebern zur Verfügung gestellt, gibt uns nur ein Muster von Verbindungen. Diese ist jedoch keineswegs umfassend oder wissenschaftlich. Sie ist nur eine Auswahl, die auf den Vorlieben des Herausgebers beruht. Und obwohl diese Auswahlen oft hilfreich sein könnten, steuern sie trotzdem die Richtung aller nachfolgenden Forschung, entgegen jeder Forderung von Wissenschaft oder historischer Genauigkeit. Ist der Verweis in der Bonaventura Skolion auf die parallele Diskussion in Gregory Biel nur da, weil diese in Biel eng verbunden mit jener in Bonaventure ist? Enger oder wichtiger als alle Diskussionen, die zwischen der Zeit Bonaventures und der Zeit Biels (fast zweihundert Jahre) stattgefunden haben, die trotzdem nicht erwähnt sind? Es ist wahrscheinlicher, dass Biel im Kopf des Herausgebers einer der “Big Guys”, einer der “wichtigen Scholastiker,” ist und deshalb ist ihm diese Diskussion bewusst. Dieser Prozess allerdings ist ein Teufelskreis. Biel ist gelistet, während viele andere spätere Scholastiker nicht gelistet sind, weil der Herausgeber glaubt, dass Biel wichtiger ist. Nachforscher sehen diese Liste und orientieren ihre Arbeit daran. Aufgrund der begrenzten Zeit entscheiden sich die nachfolgenden Forscher von diesem Skolion, die Diskussion von Biel zu untersuchen und übersehen die anderen Diskussionen. Also geht der Kreis weiter und unweigerlich entdecken wir nur, was unsere bisherigen Entscheidungen uns erlauben zu entdecken.

Was wir brauchen, ist ein wissenschaftlicherer und umfassenderer Ansatz: ein Ansatz, der die Diskussionen enthüllt, die von unseren Vorurteilen versteckt werden.

“Topic Modelling” kann uns hier helfen. Mit der Hilfe gewaltiger Computerrechenleistung können wir die Relevanz jedes Absatzes betrachten; nicht nur die Absätze, die uns schon bekannt sind. Der Computer kann ein Profil von jedem Absatz bauen und wir können dieses Profil benutzen, um verbundenen Passagen zu empfehlen und anzuzeigen.

Während meiner Zeit in Leipzig habe ich mit Dr. Köntges ein Beispiel entworfen, um diese Möglichkeiten zu demonstrieren.

Unten kann man sehen, was passiert, wenn man nach mehr Information über diesen Absatz fragt. Zunächst bekommt man eine Liste von Absätzen mit einer direkten Verbindung zum entsprechenden Absatz. Diese Verbindungen sind die gefundenen Ergebnisse eines Forschers. z.B. dieser Absatz zitiert den Anderen und so weiter.

Aber unten ist eine neue Liste von verbundenen Absätzen, dessen Verbindungen von Computer bestimmt wurden. Und in diesem Fall hat der Computer das ganze Korpus analysiert und deshalb kann er Passagen empfehlen, die jenseits der Vorurteile des Herausgebers bestehen.

Und abermals, in demselben Bild können wir diese in Beziehung stehende Absätze in einer graphischen Darstellung.

In der Zukunft planen wir beide Ansätze immer enger zusammenzubringen, so dass wir durch die Kombination von Eigenschaften, die von den Forschern erzeugt wurden, und jenen, die vom Computer erzeugt wurden, einen effektiven Empfehlungsdienst erschaffen können: einen Dienst, der uns erlaubt, die Verbindungen den ganzen Korpus hindurch in einer wissenschaftlichen und umfassenden Weise zu sehen.

Encountering the Text in the Information Age

2018-09-17T00:00:00+00:00

Below is a list of readings I would like to use to structure our seminar.

Given the various time commitments we all have, I know that, despite best intentions, it is not always possible to do all the readings before a seminar. At the same time, our seminar will be infinitely more enriching if participants can devote some time to reading preparation.

In order to make it easier for everyone to do a least some reading, I have indicated readings that are considered focused readings and those that are recommended or highly recommended. Please prioritize focused readings over recommended readings.

Additionally, for focused readings, I’ve also try to indicate even smaller page ranges which constitute the core of what I would like to focus on during our time together. Obviously, the contents within these pages ranges will be more rewarding if one can read them in the context of the entire text. But if one is pressed for time, concentrating attention on these pages ranges will allow us to come together with some common understanding of the issues at play and will hopefully enable a rewarding discussion.

Each reading below has a file reference. During the course of the seminar, files corresponding to these references will be available here. If possible, I recommend printing the focused readings out, so that during the seminar we can draw our attention toward each other and away from our screens.

Monday

Marshal Mcluhan, “The Medium is the Message” in Understanding Media, pp. 7-21 file 01-01
- Focused: p. 11, p. 18
Nicholas Carr, “Introduction” in The Shallows, pp. 1-4 file 01-02
- Focused: all
Karl Marx, “[4. The Essence of the Materialist Conception of History. Social Being and Social Consciousness]” in German Ideology, pdf pp. 1-2 file 01-04
- Recommended: all
Karl Marx, “Ruling Ideas” in German Ideology, pdf pp. 1-3 file 01-05
- Recommended: all
Plato, The Phaedrus, pdf pp. 1-36 file 01-03
- Focused: pp. 12-18 (speech in praise of the lover), pp. 28-30 (criteria of true rhetoric), pp. 32-36 (in defense of speech over the written word)

Tuesday

Walter Ong, “Orality of Language”, Orality and Literacy, pp. 5-15 file 02-01
- Recommended
Walter Ong, “Writing Restructures Consciousness”, Orality and Literacy, pp. 78-116 file 02-02
- Focused: pp. 78-96, 101-103
Nicholas Carr, “Tools of the Mind (C. 3)”, The Shallows, pp. 39-57 file 02-03
- Recommended
Walter Ong, “Print, Space, Closure” pp.117-138 file 02-04
- Focused: pp. 119-121
Nicholas Carr, “The Deepening Page(C. 4)”, The Shallows, pp. 58-77 file 02-05
- Focused: pp. 61-63
Michelle Levy and Tom Mole, “Materiality”, in The Broadview Introduction to Book History, pp. 3-27 file 02-06
- Recommended

Wednesday

James Gleick, “Information Theory”, The Information, Chapter 7, pp. 204-232 file 03-01
- Focused: pp. 221-232
Sriram Vajapeyam, “Understanding Shannons’s Entropy metric for Information”, pdf pp. 1-6 file 03-01a
- Focused: all
Vannevar Bush, “As we may think”, The Atlantic, pdf pp. 1-21 file 03-02
- Focused: all
Ted Nelson, “Hyperworld” in Chapter 0, Literary Machines, pp. 0/1-13 file 03-03
- Highly Recommended
Ted Nelson, “Hypertext” in Chapter 1, Literary Machines, pp. 1/14-19 file 03-03
- Focused: all
Ted Nelson, “2.1 An Electronic Literary System” in Chapter 2, Literary Machines, pp. 2/4-8 file 03-03
- Highly Recommended
Ted Nelson, “2.2 What is Literature?” in Chapter 2, Literary Machines, pp. 2/9-12 file 03-03
- Highly Recommended
Roland Barthes, “The Death of the Author”, p. 142-148 file 03-04
- Recommended: esp. 146-148

Thursday

Sahle, Patrick. “Zwischen Mediengebundenheit Und Transmedialisierung.” Editio 24 (2010): 23–36 file 04-01, Working/Rough Translation file 04-01a
- Focused: all
De Rose, et al. “What is a Text Really”, Journal of Computing in Higher Education, vol. 1 (2), 1990, pp. 3-26 file 04-02
- Focused: pp. 1-6
“The concept of a work in World Cat: An application of Frbr”, pdf pp. 7-32 file 04-03
- Focused: pp. 3-8
Wikipedia, “Functional Requirements for Bibliographic Records” file 04-04 or https://en.wikipedia.org/wiki/Functional_Requirements_for_Bibliographic_Records
- Focused: all

Friday

Nicholas Carr, “The Very Image of a Book (C. 6)”, The Shallows, pp. 99-114 file 05-01
- Focused: all
Nicholas Carr, “The Juggler’s Brain (C. 7)”, The Shallows, pp. 115-143 file 05-02
- Focused: all
Sven Birkerts, “Into the Electronic Millennium”, Gutenberg Elegies, pp. 117-133 file 05-03
- Recommended
Sven Birkerts, “Perseus Unbound”, Gutenberg Elegies, pp. 134-140 file 05-03
- Recommended
Sven Birkerts, “Hypertext: Of Mouse and Man”, Gutenberg Elegies, pp. 151-164 file 05-03
- Recommended

Traveling Imprimatur Demonstration

2017-12-15T00:00:00+00:00

In this demo, I’d like to show some of the early realizations of a system of quality control and imprimatur that can travel with an edition, freeing it from the confines of a particular publisher or particular presentation. In an earlier post, I described an early conception of this idea as a “traveling imprimatur”, but of late I have had some requests for live demonstrations of how this might work in production rather than just in theory. So here I want to offer a few more thoughts about why this idea is important before offering a video demonstration of this idea working in production.

Preface

As preface, I’d like to recall why the idea of a traveling imprimatur is important and how it challenges outdated paradigms that are still unnecessarily directing how we migrate our shared cultural heritage to the new digital medium.

In a great article by Joris van Zundert titled “barely beyond the book”, he introduces an idea called “paradigmatic regression”.

Van Zundert describes acts of “paradigmatic regression” as:

“acts of shaping that translate an expression of the paradigm of the new technology into an expression of a paradigm that is already known to the user.”

(Joris van Zundert, “Barely Beyond the Book?” in Digital Scholarly Editing: Theories and Practices, eds. Matthew James Driscoll and Elena Pierazzo, (http://dx.doi.org/10.11647/OBP.0095.05), 83-106, 85)

I start with this idea because today many acts of publishing an edition online embody an act of paradigmatic regression.

The concept we are familiar with from the print world is that an edition is a thing that is experienced in one place. To experience a particular edition is to experience the presentation of this edition as represented in a particular published physical book. The experience of this particular edition is therefore exhausted by the presentation found in this printed book because this edition can be experienced nowhere else.

Accordingly, the imprimatur of an edition is tied to a particular presentation of this text, and thus is tightly with coupled with the source or publisher of this presentation. If I want to view the edition that has been reviewed and carries the imprimatur of quality control, I can only view the text in the particular presentational form offered by a single publisher because, again, there is no other way for this edition to exist. The publisher who offers this presentation gains a monopoly over the “reviewed”, and therefore “authoritative” text, because the review is associated with this particular presentation rather than the data underlying this presentation.

Today, we see acts of paradigmatic regression in the creation of digital editions because this paradigm is being re-enacted in the digital medium despite the fact that it is no longer necessary.

That is, all too often, we tend to see the essence of our edition as something that is presented on a particular webpage. If I want to experience that edition, I am required to travel to a particular page or website in order to encounter that edition.

Consequently, the way we think about review, quality control, and the imprimatur for this text continues to follow the old paradigm. A text is considered reviewed when a review is given for this particular online presentation of the edition. Thereby, the party responsible for this presentation on this particular website gains an unnecessary and often unearned monopoly over the reviewed and authoritative version of the text and the uses that can be made of it.

Thus, if you want to see the reviewed text, one is needlessly forced to view that edition in one place and in one context only. Further uses and representations of this edition are prohibited precisely because the approval of the text is tied to a particular publication of this text rather than to the text itself. The authority and veracity of the imprimatur is once again tied to the source of the presentation, that is, the publisher or the website making the text visible, rather than to the data itself.

The big difference between the print enactment of this paradigm and the digital is that, in the latter case, the imprimatur is needlessly and unnecessarily tied to the publisher rather than the text. It is no longer the medium that requires us to do this, but our “paradigmatic regression” to an older model with which we are already familiar and comfortable.

The digital medium makes it possible for us to decouple the imprimatur of a particular edition from whoever is publishing the text or whatever website at a given moment is presenting that text. In this way, the reviewed text becomes free for anyone to publish and free for anyone to make new and innovative uses of without ever loses its identity as the reviewed and authoritative text.

Demonstration

In the follow screen cast, I want to offer some demonstrations of this new paradigm in action and how this kind of “traveling imprimatur” can work in the real world. While still a work in progress, it is important to recognize that this is already operational and therefore technologically possible. Thus, the main obstacles to progress lie, not in technological problems, but rather in generating the social and political will to adopt a new paradigm.

Politics and Society: The Patristic Legacy in the Middle Ages

2017-11-22T00:00:00+00:00

Workshop Proposal and Call for Papers for:

XVIIIth International Conference on Patristics Studies

Oxford University 19 August-24 August 2019

Politics and Society: The Patristic Legacy in the Middle Ages

a workshop organized by John T. Slotemaker, Fairfield University and Jeffrey C. Witt, Loyola University Maryland

The XVIIIth Oxford Patristics Conference (hereafter OPC) will take place in the Examination Schools on High Street, Oxford during August of 2019. The general call for papers has been issued (see: www.oxfordpatristics.com) and the deadline for both short communications and workshops is 31 August 2018. The present call for papers is to organize a workshop on Politics and Society: The Patristic Legacy in the Middle Ages within the nachleben (lit. ‘afterlife’) subdivision of the OPC.

The theme of this year’s workshop is Politics and Society broadly conceived. We invite proposals that examine how medieval thinkers used the Patristic inheritance to develop their own political and social worldviews. Papers might address questions such as: How Patristics authors shaped the way medieval thinkers theorized the proper relationship between church and state, or an individual to his or her family? How particular Patristic quotations were used or misused to support various medieval political or social agendas? How Patristic authors encouraged or prevented medieval multi-cultural or inter-religious interactions? How Patristic authors were used to shape law (civil or canon) and legal institutions? How Patristic authors were used to guide or direct various social practices such as baptism, marriage, or last rites?

The theme is meant broadly and we are eager to consider proposals from a wide variety of points of view, including historical, theological, philosophical, sociological, etc. We are likewise interested in expanding our horizons and expectations of where Patristic sources were used in the Middle Ages: to that end, we encourage papers that look beyond the scholasticism of the 13th century chronologically (looking at both the early middle ages and the later middle ages) and employ a variety of sources (i.e., looking at theological treatises, canon law, biblical commentaries, sermons, etc.).

If you wish to join this workshop please consider submitting a proposal to John Slotemaker or Jeff Witt (johnslotemaker@gmail.com, jeffreycwitt@gmail.com). We will accepting proposals for this workshop up through 30 June 2018. The workshop will consist of 12 papers with each paper given 20 minutes with 10 minutes for discussion. At the conclusion of the workshop participants will be invited to submit their contributions as part of collected volume to be published with Studia Patristica.

Nota bene: by accepting your proposal we will assume your participation in the workshop and your desire to publish the essay with Studia Patristica.

IIIF and Linked Data Notifications - Thoughts and Reflections

2017-02-28T00:00:00+00:00

A post by Jeffrey Witt (@jeffreycwitt)

Introduction

In the following, I offer some reflections on how the IIIF community could use the emerging Linked Data Notification specification to facilitate the sharing of IIIF resources between research groups and libraries. This post is a sequel and companion to my earlier description of how Rafael Schwemmer (of text & bytes and e-codices) and I used the Webmention specification to achieve similar results. See also my related post on using linked data notifications to share discussions between connected resources.

Caveat: none of the following has the approval or authority of the IIIF community; it is entirely speculative and experimental, designed primarily to move the discussion forward.

The main outcomes desired are as follows: First, we would like to create an automated way of allowing content providers to “announce” the publication of IIIF content (usually “supplemental”, i.e. a non-manifest resource) that has some kind of relationship or relevance to other IIIF content (usually, a manifest), particularly in cases where these relationships are not made explicit within the resource itself. Second, we want to create a standard serialization of these “announcements” and “content publication” so that users of this content can develop automatic workflows of incorporating this related data into their systems.

General Use Cases:

To understand the motivation behind these goals, it is helpful to look at a few emerging use cases.

The SCTA publishes a large number of IIIF ranges, transcription layers, and search services as separate stand-alone IIIF resources that relate to manifests, canvases, and images published and maintained by several independent libraries.

The Princeton Geniza Lab similarly maintains a database of transcriptions of Hebrew manuscripts scattered in more than 70 libraries.

The SCTA and Geniza Lab, despite being different projects with different datasets, should be able to adopt one common solution of announcing and publishing their “supplemental” data that can be understood and consumed by a plurality of libraries.

Moreover, the SCTA and Geniza Lab both, independently, have “supplemental” (non-manifest) data relevant to artifacts in the same libraries. For example, both independent research groups have “supplemental” data about manuscripts at the University of Pennsylvania and Cambridge.

The University of Pennsylvania and Cambridge should be able to receive, ingest, and use information from both research groups with one common workflow. In other words, they should not be developing one mechanism to include information from the SCTA and a second workflow to ingest information from the Princeton Geniza Project.

Again, the SCTA has transcriptions and complicated ranges for manuscripts in the Harvard University collection. As Harvard thinks about building a IIIF workspace in which scholars can work, it would be nice if the workspace could automatically alert the user to available transcriptions, ranges, or services related to the canvas currently in focus. In an ideal world, Harvard would not even need to modify its original manifest, but the workspace could simply offer an “alert” to the user. The user could then decide to bring in the “foreign” content if they wanted to.

Ideally, we would like to achieve something like the following:

New attempts with Linked Data Notifications

In an earlier post, we described trying to facilitate this data sharing via Webmentions. Here we consider what this might look like using Linked Data Notifications. Some previous discussion of the topic can be found on the IIIF-discuss board here.

Example Notifications

Example 1

Layer Notification: http://scta.info/iiif/rothwellcommentary/wettf15/notification/layer/transcription

Compare to the earlier Webmention Layer Supplement: http://scta.info/iiif/rothwellcommentary/wettf15/supplement/layer/transcription

This is what I see as the simplest and perhaps IDEAL case. It is the announcement of an available layer related to an e-codices manifest. The wrapper is very simple. There is an “id” for the sender’s notification, a “source” to indicate the domain from which the announcement comes, a “target” (i.e. the manifest to which the announced material is related), and then the “object”. The object in this case is just the URL ID to the “supplemental” non-manifest layer that can be de-referenced independent of the notification or manifest.

Example 2

Service Notification: http://scta.info/iiif/rothwellcommentary/wettf15/notification/service/searchwithin

Compare to the earlier Webmention Service Supplement: http://scta.info/iiif/rothwellcommentary/wettf15/supplement/service/searchwithin

This example is fairly similar except that the object does not point to a de-referencable link, but provides the json object itself. There are no examples of a @type: "service" in the IIIF search API, but I added it here because I am expecting that the client would be using the @type property to know what kind of information is being announced and what to do with it. (This does, however, compete with an example in the IIIF documentation where the value of “type” in the service block was “feature.” See http://iiif.io/api/annex/services/#geojson. Something else besides “type” could be used. However, on this approach, it would have to be the same property on all announced objects.

Once the client knows that it is a “service” and not a “layer” or “range” it can check the service “profile” to know what kind service it is and whether or not they want to incorporate it.

Example 3

Service Notification: http://scta.info/iiif/rothwellcommentary/wettf15/notification/ranges/toc

Compare to the earlier Webmention Service Supplement: http://scta.info/iiif/rothwellcommentary/wettf15/supplement/ranges/toc

Here is a range announcement. The “object” property is taking a single object that then wraps a flat list of all other connected ranges being announced. The @type can be used to recognize this as a range. The viewing hint is set to “wrapper” to alert the client that this is a wrapper and should be discarded. Using a “wrapper” range like this also allows me to create a de-referencable id for the entire set of ranges (e.g. http://scta.info/iiif/rothwellcommentary/wettf15/ranges/toc/wrapper. Such a de-referencable collection of ranges would also allow me to just provide the link as the value of the “object” (as in the case of “example 1” above). Further, if I had several different ranges for this manifest, I could send them to e-codices all at once as an array of de-referencable links to range wrappers.

Sending a Notification

Sending notification is a simple post request.

The Inbox

“The Inbox” is a service described by the LDN spec, which accepts the POST request of any announcement from “senders” and offers a list of notifications for GET requests from “consumers”.

On a generic GET request to the inbox endpoint, the inbox should return a list of received notifications.

On a GET request for a particular notification, the notification itself should be returned.

I have also modified this inbox, so a user/client could request a list of resources related to a particular manifest (or other resource).

Now, theoretically, UPenn, Harvard, or Cambridge, could just send a request to this inbox to see if there are any announcements about resources related to their own manifests.

In return they will receive a list of notifications that they can crawl. They can then, in turn, crawl the resources announced via these notifications and then incorporate them into their own systems however they see fit.

Final Thoughts and Reflections

What role would notifications play if there was a IIIF directory/registry (built from crawlers and sitemaps) that listed all acknowledged IIIF resources (not just manifests, but independent services, ranges, layers, etc)?

In this world, notifications would seem to be of primary use for the notifications of “updates”. But, if the content of my range list changes or improves, what actually needs to be updated? Presumably, a registry of resources would store just the link to the content I am publishing. In this case, if my content updates, the URL would remain the same, and and clients using this information, would automatically get the most up-to-date information. The only update then that seems necessary is the “announcement” of a new resource (a new URL) that the crawler did not capture the first time around.

However, at the present, the announcement wrapper seems to provide another CRITICAL service besides just the announcement of an update. The announcement wrapper is the only way (that I know of) to link, via the “target” property, a resource (for example a range list) with a foreign manifest on another system. Normally, a manifest is responsible for containing all the links that “lead out” to all connected resources. But here, we are considering a case, where a manifest does not, ahead of time, know about these connected resources. Currently, the IIIF API does not provide a mechanism to discover manifests from related supplemental material. Therefore, we need a mechanism to “lead in” from external resources to a manifest. Currently, the announcement wrapper is performing this function.

Compare, for example, the two links below:

A notification of a set of ranges http://scta.info/iiif/rothwellcommentary/wettf15/notification/ranges/toc
And then the same set of ranges without the notification as external wrapper http://scta.info/iiif/rothwellcommentary/wettf15/ranges/toc/wrapper

In the latter case, the list of ranges includes no references to the manifest, but only links to the canvas IDs. So, how can a crawler, by itself, make the association between this set of ranges and a foreign manifest that includes identical canvases?

The notification wrapper gives us a way to connect resources, even if the manifest does not contain the necessary connecting links within itself.