<?xml version="1.0" encoding="utf-8"?><feed xmlns="http://www.w3.org/2005/Atom" ><generator uri="https://jekyllrb.com/" version="3.10.0">Jekyll</generator><link href="jeffreycwitt.com/feed.xml" rel="self" type="application/atom+xml" /><link href="jeffreycwitt.com/" rel="alternate" type="text/html" /><updated>2026-04-09T18:09:56+00:00</updated><id>jeffreycwitt.com/feed.xml</id><title type="html">Jeffrey C. Witt</title><subtitle>This is my professional site. Find out about my on going work here.
</subtitle><entry><title type="html">Indices and Classification</title><link href="jeffreycwitt.com/2025/03/04/indices-and-classification/" rel="alternate" type="text/html" title="Indices and Classification" /><published>2025-03-04T00:00:00+00:00</published><updated>2025-03-04T00:00:00+00:00</updated><id>jeffreycwitt.com/2025/03/04/indices-and-classification</id><content type="html" xml:base="jeffreycwitt.com/2025/03/04/indices-and-classification/"><![CDATA[<iframe width="560" height="315" src="https://www.youtube.com/embed/MbGdabC2CIc?si=i30GQJNGbwml4qoR" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen=""></iframe>

<p>Indices are an important technical advance and technology for dealing with information overload. We don’t always think of them as specific technology or invention. They are so deeply intertwined with our books, such an essential part of our expectation of what a book should be, that it is easy to forget that it is something that had to be invented, then designed, and finally implemented as a specific kind of data-visualization.</p>

<p>Because the index is an invented tool rather than some simple extension of nature, it is also hard to see the limitations of its traditional form and in turn it is easy to overlook how it might be improved.</p>

<p>In this post, I want to report out on the progress I’ve made with a new kind of index that I want to make available for scholars of the medieval scholastic corpus.</p>

<h2 id="index-as-finding-aid">Index as Finding Aid</h2>

<p>Certainly, one function of a traditional index is a finding aid. In this case, a user knows what they are looking for and simply wants to be directed to the passage of interest.</p>

<p>Within the confines of the the physical container at hand (i.e. the current book in hand) this might seem to work well enough. But the look up friction is not to be underestimated: the flipping of pages, losing one’s place, or the act of recording pages numbers in a separate list in order to avoid the flipping of pages are all examples of friction that slow the process and can ultimately disincentivize an exhaustive survey.</p>

<p>Moreover, the unwieldy flipping of pages in exacerbated in any attempt to compare indexed passages. Let’s say you were looking for all the references to Augustine in a given text and you wanted to compare <em>how</em> Augustine was cited or referenced. Once you’ve found the pages numbers in question, the ability to lay out these found passages side by side for comparison is quite difficult and requires quite a bit of page marking and page flipping. We can do better.</p>

<p>Beyond these limitations, its the boundaries of the container that really expose the limits of this method. With respect to an index of sources, the source being referenced often remains out of reach. Extending the previous example, imagine our goal is not just to compare the way Augustine is referenced, but to compare the actual text used in the author’s citation with the original passage of Augustine. Has the author taken liberties with the text of Augustine? Are they prone to paraphrasing the text or do they quote it verbatim? And if there are multiple surviving versions of a text with their own variations, which versions or witnesses is the author citing? An index bound to its containing physical container cannot help us with these questions. The most it can do is point us to another container in another place and hope that we have the time and energy to manually locate the source and continue with the comparison.</p>

<p>The presence of machine actionable links changes things. The machine actionable link, first, means that instead of sending a user to different places on interest, we can bring the points of interest to the reader. No more flipping pages. More importantly, it explodes the boundaries of inside and outside the “physical container”. No longer are we limited only to the active quoting passages. We can invert these links and point with equal granularity and precision to the passage being quoted or referenced.</p>

<h2 id="index-as-classification-tool">Index as Classification Tool</h2>

<p>But beyond using an index as tool to merely find what we are already looking for, there’s another more subtle way we use indices. If you’ve ever begun a research project by going to the library and selecting 20 or 30 books that might be useful to your work and then began scanning the indices, table of contents, and bibliography to get a sense of the kind of material discussed in said book, then you have used an index as a classification tool. Running through an index, we try to get a sense – based on who quoted and referenced – of what the book is about and who its main conversations partners are. Based on this survey, we might sort the books we have selected into different categories and then prioritize different sets of books based on what kinds of conversations seem most useful to the present research task.</p>

<p>This kind of classification is, however, made difficult by the static nature of the medium and the way each index is confined to the boundaries of its own container. In order to sort and compare the books in questions, our hypothetical research had to manually traverse the library, carry the 30 books to a desk and then start combing the indices one by one. Even with 30 books this seems like a labor intensive task. Imagine doing this for 100, 200, or even 1000 books.</p>

<p>It is also possible to imagine how this kind of classification could be used to sort parts of a given book. Based on whose is cited, Chapter 1 seems to be about X, while given the references in chapter 10, it seems to be more about Y. This seems possible, but the medium makes it extremely difficult. The printed index’s mechanism of linking through page numbers (the material hierarchy) is arbitrarily related to the meaningful units of text (the content hierarchy). Performing this kind of classification would require the user to retain a mental mapping from page to text unit that they constantly refer to as they scan: e.g. “chapter 1 appears on pages 1-10, chapter 10 appears on pages 143-162”. This seems infeasible.</p>

<p>Finally, imagine if we wanted to combine the above two methods. Imagine if we wanted to classify distinct granular sections within an individual book to conceptually parallel granular sections in other books. Encyclopedic-type works come to mind. Imagine I wanted to compare an entry on God in 100 different encyclopedias spanning 100 years. Here it might be quite interesting to see how the conversation partners and authorities quoted in these entries change or evolve over time. We might also want to group these entries by the kinds of authorities they use. Such classification could reveal the core beliefs and/or biases of different entries. Based on their citations, these entries are likely by Roman Catholic authors whereas these probably come from the Reformed tradition. Or we might even want to see how the authorities used within the Catholic or Reformed tradition have changed over time.</p>

<p>The traditional index makes all of these desired outcomes difficult if not impossible. But machine actionable links combined with detailed domain specific data in a well-designed knowledge graph can change this.</p>

<h2 id="a-new-kind-of-index">A New Kind of Index</h2>

<p>Here I introduce the index tool I’m working which can achieve the desired outcomes listed above: namely immediate lookups/comparisons and dynamic classification.</p>

<p>Let’s take a look at the first example below.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2025-03-04-indices-and-classification/all.png" alt="all" /></p>

<p>In this interactive lombardpress web-component (which you can explore in the <a href="http://components.lombardpress.org/?path=/docs/components-citationtablewrapper--docs">lombardpress components library</a>) a user can consult any text at any level and ask for its citation frequency of any other text (and here’s the important part) at any level of granularity.</p>

<p>In the above image, each top level text is shown with its citation frequency of every other top level text.</p>

<p>This is an index of more than 16,000 entries. That’s a lot to take in. Certainly, this offer us enough information to do some broad classification. All the texts that cite Augustine’s <em>De Trinitate</em> probably have some kind of theological focus. All the texts that don’t, probably have a different focus. But with so many texts, even scrolling through and accurately discerning these variations seems like demanding and tedious work. It’s also unnecessary. If we treat this index of indices as a matrix, we can classify the different text rows using methods like Principal Components Analysis and plot these texts in a two dimensional space. Any early provisional result based on existing data can be seen below.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2025-03-04-indices-and-classification/all-with-pca.png" alt="all-with-pca" /></p>

<p>Classification here however remains difficult because of the kinds of medieval texts that are indexed here. Medieval commentaries and <em>summa</em> function much more like encyclopedias than as independent treatises. As such, at the top level, there subject matter is extremely diverse, spanning a very wide array of topics. This is a case where it would be beneficial to break these larger texts into meaningful conceptual pieces and then resume the comparison.</p>

<p>Consider the example below. Here we compare the four separate books (the 2nd level of the hierarchy) contained with Peter Lombard’s <em>Sentences</em> with the individual books of Augustine’s <em>De Trinitate</em> (again, the 2nd level of the hierarchy.)</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2025-03-04-indices-and-classification/lombard-with-pca.png" alt="lombard-with-pca" /></p>

<p>Here the PCA technique is already giving us a much more meaningful classification. The initiated know that, generally, Book 1 is about God, Book 2 is about Creation, Book 3 is about Christ, and Book 4 is about Christ and the Sacraments. And we can see in the PCA plot a separation that reflects that fundamental division.</p>

<p>Having refined our classification, one can go deeper. If we click on any of the values in the X or Y axes or any of the cells with a frequency count, the index takes you a level deeper into each text. The PCA analysis will once again cluster the component parts at the current breakdown level.</p>

<p>The index also excels at the lookup task that we first associate with any index. But here, of course, instead of sending you away to view the text, it enables the users to see and compare the quoting and quoted passages immediately within the context of the current view.</p>

<p>If we select “show citations”, then, as seen below, we can explore the actual text of each citations and view these quotations compared against the source text.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2025-03-04-indices-and-classification/lombard-with-citation.png" alt="lombard-with-citation" /></p>

<p>Finally, let me just point to one advanced form of grouping that I’m excited about. In the case of a commentary tradition like the tradition of commenting on the Sentences of Peter Lombard, since each distinction is is own topic, I might want treat the entire sum of what was written on distinction 1 as a distinct text and compare it other distinctions.</p>

<p>Here again the encyclopedia example is helpful. It might be interesting to know what are the common authorities used in all encyclopedia entires on God regardless of who the author is. Here I might want to see which authorities or parts of authoritative texts are common and which are unusual. I might want to compare this to other articles. Do any of these same texts or authorities get used in surprising places? And once I have a trend for the tradition, I might want to start looking at exceptions. Which articles innovate or deviate from the tradition by citing an uncommon authority? If we arrange this chronologically, we could also see cases where, when a given article introduces a previously uncommon citation, it suddenly becomes common in the subsequent tradition. This would be a real discovery of influence.</p>

<p>Such perspectives are possible for the Sentences commentary tradition and commentary traditions like it.</p>

<p>In the screen shots below I offer two brief examples.</p>

<p>Here I show the frequency of citations from Augustine’s <em>De Trinitate</em> in each of Sentences Commentary distinction. Note again this does not represent the citations found merely in Lombard’s distinctions, but in all of the commentaries on the distinction in question.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2025-03-04-indices-and-classification/distinctions.png" alt="distinctions" /></p>

<p>This perspective offers some interesting detail. For example, we can notice that its very common in distinction 1 (usually treating the topic of happiness or beatitude) to quote from Books 1, 9 and 10 of Augustine’s <em>De Trinitate</em>. While it is much very uncommon to see reliance on passages from Book 5 or 7. The rare and deviating use of these passages is worthy of closer inspection.</p>

<p>In the next screen shot, we can isolate our interest to just distinction 1. But instead of aggregating them all together, we can now disaggregate them by author to see where the deviation occurs.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2025-03-04-indices-and-classification/distinction1.png" alt="distinction1" /></p>

<p>As we can see here, the Augustianian Gerard of Siena is unique in his use of a passage from Book 5 and and Scotus is unique in his use of a passage from Book 7. These are exceptions we could explore to learn about what they found interesting these passages that other ignored and how the passages influenced their overall position relative to others.</p>

<hr />

<p>That’s it for now. Thanks for reading. Comments and questions are always welcome.</p>

<p>Here again is my live demo on youtube (feel free to leave comments in the comments section):</p>

<iframe width="560" height="315" src="https://www.youtube.com/embed/MbGdabC2CIc?si=i30GQJNGbwml4qoR" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen=""></iframe>]]></content><author><name></name></author><category term="scta" /><summary type="html"><![CDATA[]]></summary></entry><entry><title type="html">Text Re-Use Detection mit Ngrams und Graphen.</title><link href="jeffreycwitt.com/2023/02/01/ngrams/" rel="alternate" type="text/html" title="Text Re-Use Detection mit Ngrams und Graphen." /><published>2023-02-01T00:00:00+00:00</published><updated>2023-02-01T00:00:00+00:00</updated><id>jeffreycwitt.com/2023/02/01/ngrams</id><content type="html" xml:base="jeffreycwitt.com/2023/02/01/ngrams/"><![CDATA[<script type="text/javascript" src="https://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>

<iframe width="560" height="315" src="https://www.youtube.com/embed/FDl8krCKEU0" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen=""></iframe>

<h2 id="einleitung">Einleitung</h2>

<p>Ich war einmal in Münster, um einen Vortrag über mein Text-Archiv zu halten. In diesem Vortrag habe ich versucht zu erklären, warum es so wichtig ist, unsere kritischen Editionen historischer Texte als “Machine Accessible Daten” vorzubereiten und nicht nur als ein gedrucktes Buch. Und danach hat mich jemand sehr direkt gefragt. “Lohnt es sich”?</p>

<p>Mit dieser Frage habe ich verstanden, dass der Mann die neuen editorischen Prozesse (die ich empfohlen hatte) als schwieriger als “den normalen Prozess” empfunden hatte. Und er fragte sich, “was bekomme ich dafür, wenn ich diesen neuen Prozess übernehme?”</p>

<p>Zuerst einmal bin ich nicht der Meinung, dass es wirklich einen so-genannten “normalen Prozess” gibt. Was normal heißt, ist nur ein Prozess, an den wir so gewöhnt sind, dass wir ihn als einfach und mühelos sehen, und darum vergessen wir, dass wir diesen Prozess irgendwann gelernt haben.</p>

<p>Aber ich nehme den Einwurf an. Er konnte keinen Grund sehen, warum er eine neue Normalität aufbauen sollte.</p>

<p>Für mich waren die zukünftigen Möglichkeiten “at Scale” ganz klar, aber diese Möglichkeiten sind schwierig zu demonstrieren, wenn wir noch nicht “at Scale” sind. Aber wir können nicht zu Scale kommen, wenn Leute diese Möglichkeiten nicht sehen und uns daher nicht helfen, diese “Scale” zu erreichen. Am Anfang befinden wir uns also in einem kleinen Teufelskreis.</p>

<p>Um diesem Teufelskreis zu entkommen, braucht man Geduld. Wir müssen geduldig Daten hinzufügen, bis wir einen Umfang erreichen, der groß genug ist, um die Möglichkeiten der Skalierbarkeit  zeigen zu können.</p>

<p>Ich stehe noch am Anfang von diesem Prozess, aber ich glaube, dass ich langsam einen Umfang  erreiche, bei dem ich einige Möglichkeiten realisieren und konkret zeigen kann.</p>

<p>Deshalb hoffe ich, heute  anhand von einigen Beispielen zeigen zu können, wie die Übernahme von besserer editorischer Praxis (at Scale) auch bei  traditionellen Zielen zu besseren Ergebnissen führt.</p>

<p>Dabei  will ich in einer semi-autobiographischen Form vorgehen und eine kleine Geschichte von meinen verschiedenen Versuchen erzählen, Quellen und deren unterschiedliche Einflüsse (innerhalb eines großen Korpus) zu entdecken. Diese Geschichte führt mich zu den aktuellen Prozessen, die ich jetzt benutze und mit denen ich weiter experimentiere. Und obwohl ich die Experimente fortsetze, glaube ich, dass ich schon ein paar Beispiele von echten Entdeckungen aufzeigen kann, die Antworten auf traditionelle Fragen beinhalten. Auf diese Weise würde sich die anfängliche Frage, ob sich das denn alles lohnt, von selbst beantworten.</p>

<h1 id="aspiration-für-zitatsnetwork-mit-dem-traditionellen-apparatus-fontium">Aspiration für Zitatsnetwork mit dem traditionellen Apparatus Fontium</h1>

<p>Am Anfang wollte ich von der editorischen Arbeit profitieren, die Editoren sowieso schon tun.</p>

<p>Im traditionellen Workflow, wo man eine Quelle entdeckt, speichert man diese Daten in einer Fußnote ganz unten auf der Seite.</p>

<p>Das bedeutet: wenn jemand ein Zitat von De Trinitate von Augustinus in einem anderen Text (z.B. eines Autors aus dem  14ten. Jahrhundert) gefunden hat und das unten auf der Seite in einer Edition geschrieben hat, bemerkt  niemand (der De Trinitate von Augustinus liest) diese Verbindung, solange es keine aktualisierte Ausgabe gibt.</p>

<p>Um die Verbindung zu Augustinus zu entdecken, muss man nicht nur den Autor in der Zukunft kennen, sondern auch  diese spezifische Edition. Und das gilt in meinem Beispiel nur für einen Autor. Um den Einfluss “at Scale” sehen zu können, müssen wir diese Schritte für jeden zukünftigen Autor wiederholen. Das erfordert zu viel.</p>

<p>Wenn wir aber unsere editorische Praxis wechseln, indem wir unsere Fußnoten mit “Machine Actionable Data Links” statt Text machen, dann können wir die Arbeit von verteilten Editoren automatisch sammeln und folglich diesen Einfluss “at Scale” sehen.</p>

<p>Ein paar Beispiele:</p>

<p>Hier fokussiert man auf  eine  Target Passage und unmittelbar bekommt man eine Liste (auf der linke Seite) von allen künftigen Passagen, die die Target Passage zitieren.</p>

<p>Bild 1
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image12.png" alt="Folie 2/1" /></p>

<p>Und hier ist dieselbe Information aus einer anderen Perspektive:</p>

<p>Bild 2
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image4.png" alt="Folie 2/2" /></p>

<p>Schon  mit diesem relativ einfachen Ansatz, können wir in Kombination mit Korpus-Metadaten, große Muster erkennen.</p>

<p>Hier, auf dem nächsten Bild (Bild 3), habe ich alle Zitate von Bibelversen in separaten  Bibel-Abschnitten gezählt, die in Prologen von “Sentenzen Kommentaren” erscheinen.</p>

<p>Wir können zum Beispiel sehen, dass bestimmte Verse von den Psalmen in Prologus von Petrus Lombardus nicht erscheinen.</p>

<p>Aber plötzlich in Aquinas sehen wir die Nutzung von diesen Versen, und danach die Fortsetzung dieser Nutzung. Diese Fortsetzung der Nutzung könnte den Einfluss von Aquinas auf die folgende Tradition zeigen.</p>

<p>Bild 3
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image3.png" alt="Folie 2/3" /></p>

<p>Es ist hier wahrscheinlich hilfreich (ganz Kurz), etwas über die Natur eines Sentenzenkommentars zu sagen, und wie man diese Kommentare studiert.</p>

<p>Das Buch von Petrus Lombard (das “die Sentenzen” heißt) wurde im 12ten Jahrhundert geschrieben und umfasst  (insgesamt) 4 Bücher. Jedes Buch hat ein Thema (Gott, die Schöpfung, Christus, die Kirche). Jedes Buch wird in verschiedene Distinctiones (auch mit einem Prologus) gegliedert. Und jede Prologus und Distinctio hat sein eigenes Thema.</p>

<p>Bild 4
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image15.png" alt="Folie 2/4" /></p>

<p>Diese Tradition ist so wichtig, weil nach Lombard, so viele Leute Kommentare an jeder Distinctio geschrieben haben. Ungefähr 1600 über 5 Jahrhunderte.</p>

<p>Bild 5
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image9.png" alt="Folie 2/5" /></p>

<p>In Bezug auf die Begriffsgeschichte ist diese Tradition eine Goldmine, weil wir eine kontinuierliche Diskussion über ein sehr spezifisches Thema haben. Wenn wir den richtigen Zugang und die richtigen Werkzeuge haben, können wir beobachten, wie viele Begriffe über die Zeit sich ändern.  Um den Zugang zu einem so großen und komplexen Korpus zu erleichtern, arbeiten wir u.a. ( unter anderem) mit folgenden Perspektiven:</p>

<p>Bild 6
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image3.png" alt="Folie 2/6" /></p>

<p>Dieser Ansatz (Bild 6) hat definitiv Potenzial. Allerdings sind die Daten hier noch unvollständig, weil sie davon abhängig sind, dass die Zitate und Verweise von einem Editor manuell erkannt und markiert werden.</p>

<p>Bild 7
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image21.png" alt="Folie 2/7" /></p>

<p>Das erfordert eine Menge Mühe und die volle Teilnahme der editorischen Community. Solche Teilnahme haben wir noch nicht.</p>

<p>In einer Community mit wenigen wahren Anhängern und mit noch weniger Beitragenden, ist der Fortschritt langsam und echte Entdeckungen sind rar.</p>

<p>Denn im Moment verhindert diese Unvollständigkeit nützliche Interpretationen, darum bleiben wir leider meistens (wie wir oben gesehen haben) im Reich von Möglichkeiten.</p>

<h1 id="entdeckung-der-ähnlichkeit-mit-n-grams">Entdeckung der Ähnlichkeit mit N-Grams</h1>

<p>Weil ich meistens allein arbeite, habe ich erkannt, dass ich andere Ansätze für die Textähnlichkeit-Erkennung ausprobieren muss.</p>

<p>Die Nutzung von N-Grams ist technisch ziemlich einfach, aber ich war überrascht von ihren Möglichkeiten, besonders wenn diese Ngrams mit Metadaten vom Korpus Graph kombiniert werden.</p>

<p>Die Methode funktioniert wie folgt.</p>

<p>Um einen Korpus mit rund 80 Millionen Wörtern zu analysieren, habe ich ein kleines Programm geschrieben, das durch jeden Absatz läuft und jedes einzigartige 4-Gram speichert.</p>

<p>z.B.</p>

<p>“Die Katze ist auf der Matte” hat drei 4-grams</p>

<ol>
  <li>Die Katze ist auf</li>
  <li>Katze ist auf der</li>
  <li>ist auf der Matte</li>
</ol>

<p>Jedes 4-Gram wird eine Ressource in einem Graph und verwendet eine Relation/Property, die “sctap:isFoundIn” heißt und diese Property deutet auf jeden Absatz hin, der dieses N-gram enthält.</p>

<p>In “description” Logik, haben wir die Folgende: “Ngram.isFoundIn.Paragraph”</p>

<p>z.B.</p>

<p>Sctar:videturquodnonsic sctap:isFoundIn sctar:para1; sctar:para5; sctar:para10; sctar:para21 .</p>

<p>Grundsätzlich haben wir ein einfaches Wörterbuch (“Dictionary”) gebaut, mit dem man ganz schnell ein N-gram benutzen kann, um jeden Absatz zu finden, der dieses N-gram enthält.</p>

<p>Aber was wir wollen, ist die Ähnlichkeit zwischen Absätzen. Also was wir hier brauchen ist eine Definition von “Ähnlichkeit” oder eine entsprechende Interpretation durch den Datengraph.</p>

<p>In diesem Experiment habe ich selbst vordefiniert: zwei Absätze sind “ähnlich”, wenn sie 6 oder mehr 4-Grams gemeinsam teilen. Anders gesagt, sie sind ähnlich, wenn die “Intersection” von 4-Grams größer ist als 6.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image5.png" alt="intersection" /></p>

<p>Oder</p>

<p>X is related to Y, if and only if</p>

<div>
  <p>\(\#\{ a | \forall{n}\forall{x}\forall{y}(IsFoundIn(n,x) \land IsFoundIn(n,y) \land x \neq y \} &gt;= 6\)</p>
</div>

<!-- Oder

If we think of each paragraph as a n-dimensional vector of “one hot encoded 4-grams”, we can look for the intersection vector (or the Dot Product of the two Vectors) whose sum is greater than or equal to 6.

This is sometimes called a “bag of n-grams” model

Document Vectors A * B = DotProductVector = Intersection Vector (V) 
  
$$Intersection Vector Summation = \sum_{i=1}^{n} v_i$$

If Intersection Vector Summation  >= 6, then Doc Vectors A and B are "similar"

<hr/>
"Bag of N-Grams Model"
<table class="c18" style="font-size: 16px"><tbody><tr class="c5"><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">Paragraph</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram2</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram3</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram4</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram5</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram6</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram7</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram8</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram9</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram10</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram11</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">4gram12</span></p></td></tr><tr class="c5"><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">Doc A</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td></tr><tr class="c5"><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">Doc B</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1</span></p></td></tr><tr class="c5"><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">Dot Product Vector </span></p></td><td class="c4 c15" colspan="1" rowspan="1"><p class="c14"><span class="c1">1x1=1</span></p></td><td class="c4 c15" colspan="1" rowspan="1"><p class="c14"><span class="c1">1x1=1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0x1=0</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">1x0=0</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0x1=0</span></p></td><td class="c4 c15" colspan="1" rowspan="1"><p class="c14"><span class="c1">1x1=1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0x0=1</span></p></td><td class="c4 c15" colspan="1" rowspan="1"><p class="c14"><span class="c1">1x1=1</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0x0=0</span></p></td><td class="c4" colspan="1" rowspan="1"><p class="c14"><span class="c1">0x1=0</span></p></td><td class="c4 c15" colspan="1" rowspan="1"><p class="c14"><span class="c1">1x1=1</span></p></td><td class="c4 c15" colspan="1" rowspan="1"><p class="c14"><span class="c1">1x1=1</span></p></td></tr></tbody></table> -->

<p>Diese Interpretation könnte, übersetzt in eine SPARQL Abfrage, so aussehen:</p>

<div class="language-plaintext highlighter-rouge"><div class="highlight"><pre class="highlight"><code>SELECT (COUNT(*) as ?count) ?start ?target
WHERE {
              ?ngram &lt;http://scta.info/property/isFoundIn&gt; ?start .
              ?ngram &lt;http://scta.info/property/isFoundIn&gt; ?target .
              FILTER(?start != ?target) .
  }
  GROUP BY ?start ?target 
              HAVING (?count &gt;= 6)
</code></pre></div></div>

<h1 id="n-gram-visualisierung-erster-versuch">N-gram Visualisierung: Erster Versuch</h1>

<p>Die erste Idee, die ich hatte, war diese Abfrage zu nutzen, um, abhängig vom aktuellen Interesse des Lesers, empfohlene Verbindungen anzubieten.</p>

<p>Also, in dem Fall von einem Absatz von De Trinitate von Augustinus, unter der Liste von editorisch erkannten Zitaten (die wir oben gesehen haben), konnte der Computer eine Liste von ähnlichen Absätzen empfehlen.</p>

<p>Bild 8
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image11.png" alt="Folie 4/1" /></p>

<p>Hier können ​​das computergestützte Vorgehen und die editorische Arbeit kombiniert werden. Der Computer gibt uns eine Liste von ähnlichen Absätzen und erzählt uns, welche schon von Editoren markiert wurden und welche noch unbestätigt sind.</p>

<p>Diese Methode und Visualisierung sind sehr hilfreich, wenn man mit einer bestimmten Passage im Kopf beginnt. Wenn ich mich schon mit einem Text beschäftige, kann diese Methode auf andere nützliche Passagen hindeuten.</p>

<p>Aber was, wenn ich nicht weiß, wo ich beginnen soll? Was, wenn ich alle Nachnutzungen (nicht nur für eine bestimmte Passage) sehen will? Oder was, wenn ich darauf aufmerksam gemacht werden will, dass eine Passage (die mir vorher nicht bewusst war) wahrscheinlich eine Quelle von vielen Text-Nachnutzungen ist?</p>

<p>Für eine Weile habe ich versucht, diese obige Methode zu benutzen. Ich habe mich von Absatz zu Absatz bewegt, und manchmal habe ich etwas Interessantes gefunden, aber es war immer noch willkürlich.</p>

<p>Was mir gefehlt hat, war eine Vogelperspektive, um die ganze Landschaft zu sehen. Mit dieser Landschaft wollte ich Absätze sehen (von denen ich vorher keine Ahnung hatte), die Nachnutzung oder Einfluss zeigen.</p>

<p>Die Daten waren schon da.</p>

<p>Was ich gebraucht habe, war eine bessere Datenvisualisierung.</p>

<h1 id="n-gram-visualization-zweiter-versuch">N-gram Visualization: Zweiter Versuch</h1>

<p>Letzten Sommer habe ich eine coole “Javascript Library” gesehen, die entwickelt wurde, um die Unterschiede zwischen Handschriften-Zeugnisse zu visualisieren</p>

<p>Zuerst habe ich sie genau für diesen Zweck benutzt.</p>

<p>Hier, auf diesem Bild, haben wir jeden Absatz auf der X-Achse und jedes Zeugnis auf der Y-Achse abgebildet. Wir können den Unterschied zwischen jedem Absatz messen und dann diesen Unterschied mit blauer Farbe visualisieren.</p>

<p>Bild 9
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image10.png" alt="Folie 5/1" /></p>

<p>Aber dann habe ich gedacht, ich brauche etwas Ähnliches, um diese Vogelperspektive zu sehen. Ich will alle Absätze gleichzeitig sehen, und dann darauf aufmerksam gemacht werden, wann und wo ein Absatz oder ein größerer Abschnitt mit anderen Texten verbunden ist.</p>

<h2 id="beispiel-1-zitatsmuster-entdeckung-in-der-tradition-von-den-sentenzen-kommentaren">Beispiel 1: Zitatsmuster-Entdeckung in der Tradition von den Sentenzen Kommentaren</h2>

<p>Also hier auf dem nächsten Bild ist ein Beispiel, wieder mit dem De Trinitate von Augustinus.</p>

<p>Auf der X-Achse ist jeder Absatz in dem De Trinitate. Auf der Y-Achse ist jeder Absatz, der “Ähnlichkeit” mit dem Absatz auf der X-Achse hat.</p>

<p>Die Metadaten des Korpus Graph sind hier wichtig. Diese Absätze auf der Y-Achse sind zuerst in der Datumsfolge angeordnet und dann in der Reihenfolge innerhalb des jeweiligen Textes.</p>

<p>Bild 10
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image28.png" alt="Folie 5/3, Augustine De Trinitate" />
<!-- [http://127.0.0.1:8080/ngram-similarity5.html?resourceid=http://scta.info/resource/augustinedetrinitate] --></p>

<p>Mit der Datumsfolge können wir versuchen, Quellen und Einfluss zu unterscheiden. Hier auf diesem Bild (Bild 11), wenn einen Absatz von Augustinus Ähnlichkeit mit einem Text hat, der vor Augustinus geschrieben wurde, dann sehen wir diesen Absatz in Rot. Wenn der Absatz nach Augustinus geschrieben wurde, dann sehen wir diesen Absatz in Blau.</p>

<p>Bild 11
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image6.png" alt="Folie 5/4, Augustine De Trinitate" /></p>

<p>Entsprechend, wenn wir eine Spalte ohne Rot und viel Blau sehen, können wir ableiten, dass wir eine Passage sehen, die viel Einfluss hat, weil viele Leute Augustinus direkt zitiert haben.</p>

<p>Wir können auch die Metadaten nutzen, um unsere Vogelperspektive zu fokussieren, zum Beispiel um nur zwei Texte miteinander zu vergleichen.</p>

<p>Hier vergleichen wir den Text von Augustinus nur mit dem Text von Petrus Lombardus.</p>

<p>Was wir am klarsten sehen ist die häufige Nutzung des Mittelteils von De Trinitate und wieder die häufige Nutzung des Letzten Teils (z.B. Bücher 14 und 15).</p>

<p>Bild 12
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image27.png" alt="Folie 5/5" />
<!-- [http://127.0.0.1:8080/ngram-similarity5.html?resourceid=http://scta.info/resource/augustinedetrinitate&expression=http://scta.info/resource/lombardsententia] --></p>

<p>Wir können auch diese Perspektive umkehren. Hier sehen wir den Text von Petrus Lombardus auf der X-Achse und Augustinus auf der Y-Achse. Ganz schnell sehen wir, dass die Nutzung von De Trinitate sehr früh in dem Text von Petrus Lombardus vorkommt, aber nicht zu oft im späteren Teil.</p>

<p>Bild 13
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image20.png" alt="Folie 5/6: Lombard im Vergleich zu Augustinus" /></p>

<p>Außerdem können wir die Korpusdaten benutzen, um verschiedene Textgattungen zu vergleichen.</p>

<p>Hier zeigen wir wieder jeden Absatz von De Trinitate auf der X-Achse, aber dann vergleichen wir jeden Absatz nur mit jedem Absatz in einem Sentenzenkommentar. Die Farbe hilft uns, die unterschiedlichen Kommentaren zu unterscheiden.</p>

<p>Eine solche Perspektive erlaubt uns, Innovation in der Tradition zu erkennen. Wir können immer noch sehen, wie Lombard den Text von Augustinus benutzt hat. Aber jetzt können wir zusätzlich sehen, ob und wie spätere Kommentare diesem Muster gefolgt sind oder nicht. Allgemein setzt sich das Muster von Lombardus fort.</p>

<p>Bild 14
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image23.png" alt="Folie 5/7: augustine de Trinitate vs all sentences commentaries arranged by Author" /></p>

<p>Aber es ist auch möglich, Stellen zu sehen, wo Passagen von Augustinus benutzt werden, die nicht von Lombard zitiert werden, und das zeigt uns Innovation.</p>

<p>Bild 15
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image16.png" alt="Folie 5/8" /></p>

<p>In dem folgenden Bild (Bild 16), können wir noch mal die Nachnutzung in jedem Kommentar sehen, aber diesmal wird jeder Absatz in einem Kommentar von einer bestimmten Distinctio gruppiert, mit den Absätzen von anderen Kommentaren, die auch ein Teil derselben Distinctio sind. (z.B. alle Texte der Distinctio 1 (geschrieben vom 12ten  bis zum 16ten Jahrhundert) werden zusammen gruppiert. Und danach werden alle Texte der Distinctio 2 (geschrieben vom 12ten. bis zum 16ten. Jahrhundert) zusammen gruppiert. Und so weiter und so fort).</p>

<p>Wir können ganz klar sehen, wie die spezifische Nutzung von “de Trinitate” verschiedenen Themen in verschiedenen Distinctiones entspricht.</p>

<p>Bild 16
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image22.png" alt="Folie 5/9: Augustine De Trinitate  in all sentences commentaries arranged by distinction" /></p>

<p>Wir können auch sehen, wie die Nutzung in einer “Distinctio” eines Kommentars vom allgemeinen Muster abweicht, das in anderen Kommentaren in dieselbe Distinctio gesehen wird.</p>

<p>Bild 17
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image17.png" alt="Folie 5/10" /></p>

<p>Und wenn wir einen Bereich von Interessen (wie diese) gefunden haben, können wir die Metadaten benutzen, um diesen Bereich zu vergrößern.</p>

<p>Hier konzentrieren wir uns nur auf Distinctio 8 in allen Kommentaren.</p>

<p>Wir können sehen, dass es ziemlich traditionell ist, Buch 5 in Distinctio 8 zu zitieren.</p>

<p>Aber später in der Tradition sehen wir Innovation. Plötzlich sehen wir Zitate aus dem Buch 15.</p>

<p>Bild 18
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image18.png" alt="Folie 5/11. De Trin  gegen Distinctio 8" /></p>

<!-- (http://127.0.0.1:8080/ngram-similarity5.html?resourceid=http://scta.info/resource/augustinedetrinitate&expressionType=http://scta.info/resource/liber1-distinctio8) -->

<p>Oder in dem nächsten Bild, jeder Absatz in dem Text von Lombardus ist mit jedem Absatz in jedem Kommentar (wieder von derselben Distinctio gruppiert) verglichen.</p>

<p>Das zeigt uns meistens, was wir erwarten. In den Kommentaren auf Distinctio 1 sehen wir heftige Nachnutzung von Distinctio 1 von Lombardus.</p>

<p>Aber es hilft uns auch zu sehen, wo ein Autor anfängt, sich auf unerwartete Passagen zu verlassen.</p>

<p>Zum Beispiel, ein Kommentator, der kommentiert auf Distinctio 1, der plötzlich beginnt, Passagen von Distinctio 3 zu nutzen..</p>

<p>Bild 19
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image32.png" alt="Folie 5/12: Lombard Book 1 in all sentences commentaries arranged by distinction" /></p>

<h2 id="beispiel-2-uncited-successive-passage-re-use">Beispiel 2: “UNCITED SUCCESSIVE PASSAGE RE-USE”</h2>

<p>Schließlich ist hier noch ein anderes Beispiel, auf das ich für eine Weile fokussieren will.</p>

<p>Bislang haben wir uns auf die Nachnutzung von bestimmten isolierten Zitaten fokussiert.</p>

<p>Aber es gibt eine andere Art Nachnutzung in der Scholastischen Tradition. Diese nenne ich “Uncited Successive Passage Re-Use,” das heißt, was wir ein Plagiat nennen würden.</p>

<p>Dieses Bild zeigt uns etwas sehr Interessantes. Aber wir müssen lernen, die Ergebnisse zu lesen.</p>

<p>Bild 20
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image14.png" alt="Folie 5/14: Bild von Gracilis Book 1" />
<!-- [http://127.0.0.1:8080/ngram-similarity5.html?resourceid=http://scta.info/resource/pg-book1] --></p>

<p>Bild 21
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image2.png" alt="Folie 5/15" /></p>

<p>In diesem Fall wird die Bedeutung klarer sein, wenn wir eine kleine Erklärung über diesen Text und  die vorherige Forschung an diesem Text haben.</p>

<p>Der Text auf der X-Achse ist ein Sentenz Kommentar von Petrus Gracilis, der den Text im späten 14. Jahrhundert geschrieben hat.</p>

<p>In 1956 findet Damasus Trapp heraus, dass dieser Text zahlreiche Nachnutzungen aus dem Text von John von Basel enthält.</p>

<p>Trapp schreibt nicht, welche Passagen genau nachgenutzt wurden. Er sagt nur, dass Gracilis meistens Basel kopiert.</p>

<p>Aber besonders wichtig für uns ist die Tatsache, dass Trapp zugibt, dass diese Entdeckung ein glücklicher Zufall war.</p>

<blockquote>
  <p>“Petrus Gracilis…followed not only the footsteps but the very phrases of Hiltalingen in a way so deceptive that it does not cast the best light on Gracilis. He read secundum Hiltalingen without ever mentioning him. Only by a lucky coincidence [emphasis mine] was I enabled to “unmask” Gracilis’ dubious literary honesty. (See Trapp, Damasus, “Augustinian Theology of the 14th Century,” Augustiniana 6 (1956): 147-274, p. 254.)</p>
</blockquote>

<p>Das ist genau der Punkt. Die traditionelle Forschung zeigt Interesse für diese Art Forschungsfragen. Aber die Methoden sind anekdotisch und zufällig. Wir brauchen wissenschaftliche Methoden.</p>

<p>Dass die traditionelle Forschung dieser Art Fragen von der wissenschaftlichen Community wertgeschätzt wird, ist in einem Artikel von Venicio Marcolino von 2008 klar. Marcolino folgt Trapp und versucht die Verbindung zwischen Gracilis und Basel genauer zu machen.</p>

<p>Marcolino bewegt sich durch den Kommentar, Distinctio für Distinctio, Fragen für Fragen, und versucht zu zeigen, wo Gracilis den Text von Basel benutzt hat.</p>

<p>Über diesen Aufsatz (in dem Bild unten gesehen) können wir ein paar Dinge bemerken.</p>

<p>Zuerst ist der Text von Gracilis definitiv keine einfache Kopie von Basel und mischt viele andere Texte und auch viele originelle Wörter mit ein.</p>

<p>Zweitens gibt es viele Fragezeichen, wo Marcolino Nachnutzung erwartet, aber keine Quelle finden kann.</p>

<p>Drittens gibt es komplette Fragen, wo er keine Verbindung sieht, und, von dem Artikel, es sieht so aus, als ob er denkt, es gibt keine Abhängigkeit hier und der Leser soll sich wohl fühlen, abzuleiten, dass hier Gracilis original sein muss.</p>

<p>Bild 22
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image7.png" alt="Folio 5/17" /></p>

<p>Also, lass uns zu unserer Datenvisualisierung zurückkommen.</p>

<p>Bild 23
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image14.png" alt="Folio 5/18 von Gracilis Ähnlichkeit" /></p>

<p>In der Mitte dieses Graph können wir eine ziemlich große rote Schliere sehen. Günstigerweise entspricht diese rote Schliere dem Text von John von Basel. Der Computer zeigt uns automatisch, was Trappp und Marcolino bestätigen.</p>

<p>Aber mit der Hilfe des Text-Network können wir diese Abhängigkeit genauer und mit mehr Transparenz sehen. Mit einem Click, können wir jeden roten Punkt untersuchen.</p>

<p>Bild 24
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image1.png" alt="Folie 5/19" /></p>

<p>Bild 25
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image19.png" alt="Folie 5/20" /></p>

<p>Der Graph (Bild 26) zeigt uns auch die Lücke in der Nachnutzung. Genau dieser Punkt, wo Marcolino keine Abhängigkeit berichtet hat. (z.B. Frage 30, und 38)</p>

<p>Aber der Graph zeigt uns auch, was Marcolino nicht gewusst hat, und was niemand, ohne einen sehr glücklichen Zufall, nicht hätte wissen können.</p>

<p>Während Marcolino uns den Eindruck gibt, dass hier (in Fragen 30 und 38) Gracilis plötzlich keine Nachnutzung hat, zeigt uns der Graph, dass genau in diesem Punkt, wo keine Abhängigkeit auf Basel gesehen werden kann, sehr starke Abhängigkeit auf einem anderen Text gibt: den Text von Andreas de Novo Castro.</p>

<p>Bild 26
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image24.png" alt="Folie 5/21" /></p>

<p>Ein weiterer Schritt.</p>

<p>Die Visualisierung zeigt uns ein interessantes Muster von Abhängigkeit: wenn es substantielle und kontinuierliche Nachnutzung gibt, sehen wir normalerweise ein diagonales Muster. Wenn die Nachnutzung groß ist, wie im Fall von Basel, ist das Muster einfach zu sehen. Aber wenn es kleiner ist und die Vogelperspektive sehr weit ist, kann es schwieriger zu sehen sein.</p>

<p>Aber jetzt, da wir dieses Muster kennen, können wir den Daten Graph benutzen, um dieses Muster im gesamten Korpus algorithmisch durchzusuchen.</p>

<table>
  <thead>
    <tr>
      <th> </th>
      <th>5</th>
      <th>6</th>
      <th>7</th>
      <th>8</th>
      <th>9</th>
      <th>10</th>
      <th>11</th>
      <th>12</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>2</td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
    </tr>
    <tr>
      <td>3</td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
    </tr>
    <tr>
      <td>4</td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td>x</td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
    </tr>
    <tr>
      <td>5</td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td>x</td>
      <td> </td>
      <td> </td>
      <td> </td>
    </tr>
    <tr>
      <td>6</td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td>x</td>
      <td> </td>
      <td> </td>
    </tr>
    <tr>
      <td>7</td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
    </tr>
    <tr>
      <td>8</td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
    </tr>
    <tr>
      <td>9</td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
      <td> </td>
    </tr>
  </tbody>
</table>

<p>Genauer gesagt, ein diagonales Muster in dieser Anordnung bedeutet, dass wenn wir von einem Absatz beginnen, der Ähnlichkeit mit einem anderen Absatz hat, dann, wenn wir uns vorwärts bewegen (zum nächsten Absatz, auf der X-Achse), finden wir ähnlichkeit zwischen diesem Absatz und dem nächsten Absatz auf der Y-Achse.</p>

<p>Wir können es so beschreiben.</p>

\[SuccessiveReuse(t) =\]

\[\forall{x_n}\forall{y_m}(R(x_{n}, y_{m}) \land R(x_{n+1}, y_{m+1}) \land R(x_{n+2},y_{m+2}))\]

<p>Wir können es ein bisschen ungenauer machen, damit es mehr Clusters findet.</p>

\[SuccessiveReuse(t) =\]

\[\forall{x_n}\forall{y_m}(R(x_n,y_m)\]

\[\land (R(x_{n+1},y_{m+1}) \lor R(x_{n+2},y_{m+2}))\]

\[\land (R(x_{n+3},y_{m+2}) \lor (R(x_{n+4},y_{m+3}))\]

\[\land (R(x_{n+3},y_{m+3}) \lor (R(x_{n+4},y_{m+4}))\]

<p>Schließlich, um unsere Ergebnisse zu filtern, können wir ein Threshold innerhalb eines bestimmten Bereiches setzen, um die Stellen, wo viele Clusters sind, zu isolieren. In diesen Beispielen suche ich noch bestimmte Fragen oder Kapitel, die 10 oder mehr Clusters haben.</p>

<p>Also:</p>

\[SubstantialSuccessiveReuse(t) =\]

\[\#\{ a | \forall{t}(SuccessveReuse(t)\} &gt;= 10\]

<p>where t = Question or Chapter</p>

<p>Die algorithmisch entdeckten Clusters helfen uns, Nachnutzung zu sehen, die in der Visualisierung schwierig zu sehen sind. Und damit können wir eine zweite Entdeckung machen.</p>

<p>Hier haben wir einen großen Abschnitt von die Summa von Albertus Magnus. Albertus hat so viele Zitate und so viel Einfluss, dass es schwierig ist, einzelne Clusters von fortgesetzte Text-Nachnutzung zu isolieren und zu untersuchen.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image26.png" alt="folie 5/25" />
<!-- [http://127.0.0.1:8080/ngram-similarity5.html?resourceid=http://scta.info/resource/Almn78-zx90xx] --></p>

<p>Aber innerhalb dieses Morasts kann der Algorithmus Clusters berichten. Hier innerhalb einer Frage von Albertus hat der Computer eine andere Frage von einem sehr unbekannten Autor (Lambertus de Monte), der im 15 Jahrhundert geschrieben hat, der mindestens 22 Clusters von Nachnutzung hat.</p>

<p>Bild 27
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image30.png" alt="folie 5/26" /></p>

<p>Und jetzt, dass wir ein Cluster von Interesse gefunden haben, mit der Hilfe der Metadaten in dem Korpus-Graph, können wir die Visualisierung fokussieren und diese Nachnutzung genauer untersuchen.</p>

<p>Bild 28
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image25.png" alt="folie 5/27" />
<!-- [http://localhost:8080/ngram-similarity5.html?resourceid=http://scta.info/resource/Almn78-a1a503&expression=http://scta.info/resource/gU87nn-d1e66x&it=6] --></p>

<p>Das hier ist noch eine echte Entdeckung. Nirgendwo hat Lambertus den Namen von Albertus erwähnt. Er hat kein Zeichen von Zitierung gegeben. Er hat geschrieben, als ob diese Wörter seine eigenen wären. Aber der Computer findet diese Nachnutzung ohne Mühe.</p>

<p>Auf diese Weise kann ich, ohne Vorwissen, den ganzen Korpus überfliegen und Nachnutzung und Einfluss in den Texten entdecken, von denen ich vorher keine Ahnung hatte.</p>

<p>Hier ist ein Bericht von jedem Text in dem Korpus, mit einer Liste von anderen Texten, die eine Cluster Zahl größer als 10 haben.</p>

<p>Bild 29
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image31.png" alt="folie 5/28" /></p>

<p>Bild 30
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/2023-02-01/image13.png" alt="folie 5/29" /></p>

<!-- 

[a couple examples to inspect

Oooo3o (Dionysius of Montina) – http://scta.info/resource/jhb-l1q2 (513)
Ooij7j (Pedro Garcia) -> Holcot
Qweqwe (D’Ailly) – grvnZZ-d1e116 (63) (Rimini)
Holcotcommentary - http://scta.info/resource/qweqwe-e22154 (65)
grvnZZ – http://scta.info/resource/qweqwe-e51421 (93)
bs333 (Biel) – wo8uy7-d1e1106 (Ockham)
wo8uy7-d1e221 ) (ockham) –> D’Ailly http://scta.info/resource/qweqwe-e22154 (49) -->

<p>Und mit diesem Bericht können wir diesen Korpus überfliegen und die Ergebnisse untersuchen und mehr Entdeckungen machen.</p>]]></content><author><name></name></author><category term="scta" /><category term="deutsch" /><summary type="html"><![CDATA[]]></summary></entry><entry><title type="html">Biking with Calculus</title><link href="jeffreycwitt.com/2021/06/15/biking-with-calculus/" rel="alternate" type="text/html" title="Biking with Calculus" /><published>2021-06-15T00:00:00+00:00</published><updated>2021-06-15T00:00:00+00:00</updated><id>jeffreycwitt.com/2021/06/15/biking-with-calculus</id><content type="html" xml:base="jeffreycwitt.com/2021/06/15/biking-with-calculus/"><![CDATA[<script type="text/javascript" src="https://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>

<p>I’ve been taking a calculus course of late and have been looking for applications. Besides math, I love to bike, and since biking involves lots of changes, it seems like a good place to experiment with applications of my current calculus knowledge.</p>

<p>In this experiment I wanted to use calculus to answer some questions that often arise during my ride.</p>

<p>I often ride familiar routes, and for those familiar routes I often have a target “total miles per hour average” that I would like to reach. At given point in my route, I will look down at my simple computer and learn that, thus far, I have been averaging 15mph.</p>

<p>But if my goal for the total route is 17mph, I’m usually curious about what it will take during the remainder of the proposed route in order to meet my goal.</p>

<p>Unfortunately, predicting what I will need to do (or whether it is even remotely possible) is not very intuitive. The rate of change in my overall average is dependent on a lot more than just my current average. How quickly I can improve my overall average is significantly affected by how long I have been riding, how close my current average is to my goal average, and how much distance (or time) remains in the overall route. Moreover, the rate of change is constantly in flux as the underlying parameters (overall average, distance traveled, distance remaining) are changing as I continue my ride.</p>

<p>What I would like to do is be able to create a “bike computer” interface that (using its knowledge of my current distance, time, and average, and the amount distance or time remaining in my route) constantly reports and updates the new average I need to maintain in order to meet my goal (as well as the distance or time I will require to meet my goal at my current pace).</p>

<p>Calculus (and integration in particular) will be particularly useful tools for building such an interface.</p>

<p>Let’s start with the general formula that will be needed to in order for my new computer to constantly perform these calculations.</p>

<p>Our overall goal is to reach a target speed. So this is a good place to start.</p>

<p>If our goal is to finish with an average of 17mph, we’re going to need to end with a distance and time that can give us this result.</p>

<p>Since:</p>

\[Speed = \frac{Distance}{Time}\]

<p>we know that we will need something like this:</p>

\[17 = \frac{Distance}{Time}\]

<p>But our challenge is to pick any point somewhere in the middle of the route and, based on the distance covered at that point in time, to pick a new speed that leads us to our desired overall average.</p>

<p>In this case, we know the starting distance (which we will call \(s\)) of the overall distance (\(d\)) (which we also know) and we know the time traveled (\(b\)) at \(T_1\).</p>

<p>But we want to discover the second part (which we will call \(r\) for remaining distance) of \(d\) at \(T_2\) and the additional time required to reach \(T_2\) (which we will call \(x\)) based on the already completed distance \(s\) and initial time \(b\) and, most importantly, the speed required to cover that remaining distance (\(r\)) within the allotted amount of remaining time (\(x\)).</p>

<p>Let’s start by calculating the starting distance (\(s\)) at time \(T_1\) or \(b\).</p>

<p>This is an integral function:</p>

\[\mathrm{d}y = \int_0^b f(x) \mathrm{d}t\]

<p>Again \(b\) is the time (in hours) and \(f(x)\) is the function that describes the change in distance during \(\mathrm{d}t\). In our example \(f(x)\) will be very simple (i.e. the derivative of a linear function, like 15).</p>

<p>But being general here will allow our calculations to not just work with linear functions but later with more elaborate functions (e.g. functions that might describe the average speed at \(T_1\) of a rocket) and will allow our calculations to be even more accurate.</p>

<p>So let’s imagine I’ve been biking for 1 hours (\(T_1=1\) and \(b = 1\)) and my average over that 1 hour has been 15mph (\(f(x) = 15\)). We can compute the distance covered at this point (\(\mathrm{d}y\)) by computing the definite integral: \(\int_0^1 15 \mathrm{d}t\) which becomes \(15(1)\) or 15 miles.</p>

<p>If we want to get to the speed over that hour, we can just divide \(\mathrm{d}y\) by how long I’ve been traveling, \(\mathrm{d}t\); in other words \(\frac{\mathrm{d}y}{\mathrm{d}t}\), or \(\frac{s}{b}\) which equals \(\frac{15}{1}\) or 15 miles per hour.</p>

<p>Ok, but our final goal is \(\frac{17}{1}\) or 17 miles per hour.</p>

<p>So to reach our goal, we’re going to need an overall distance \(d\) (or \(dy\)) that, when divided by the overall time \(b + x\) (where x is the additional time traveled), gives us 17.</p>

<p>But we already know part of the overall function that is going to lead us to \(\mathrm{d}y\). So our question is really <strong>what do we need to add to get to our desired result</strong>? Or more concretely, how fast do we need to travel over the additional amount of time \(x\). Let’s call this new and unknown rate of change \(g(x)\).</p>

<p>So getting to a \(\mathrm{d}y\) (\(d\), the overall distance) where \(\frac{\mathrm{d}y}{b+x}=17\) is a matter of adding another integral to the value of the already known integral.</p>

\[\mathrm{d}y = \int_0^b f(x) \mathrm{d}t + \int_0^x g(x) \mathrm{d}t\]

<p>And since we know our target average speed (17) is just the overall distance divided by the overall time \(\frac{\mathrm{d}y}{b + x}\) we have the following equation:</p>

\[17 = \frac{\int_0^b f(x) \mathrm{d}t + \int_0^x g(x) \mathrm{d}t}{b+x}\]

<p>Now we’re getting close. We can see our goal \(g(x)\), but before we can solve for \(g(x)\), we first need to find \(x\) or the additional amount of time anticipated in the planned route.</p>

<p>But this a little tricky because I don’t know the time yet. The amount of time it will take will depend on how fast I go or \(g(x)\) which is exactly what I’m trying to find.</p>

<p>However, because I know the route of my overall ride and thus the distance of the overall route, we can describe \(x\) in terms of \(g(x)\) and remaining distance which we have called \(r\).</p>

<p>Again, recall that:</p>

\[Speed = \frac{Distance}{Time}\]

<p>therefore:</p>

\[g(x) = \frac{r}{x}\]

<p>So we just need to find \(r\) or the remaining distance.</p>

<p>And remaining distance will be the total distance of the route \(d\) minus the starting (already travelled) distance \(s\) at \(T_1\).</p>

<p>The starting distance \(s\) can be computed from the speed and time at \(T_1\) which is \(s = f(x)b\)</p>

<p>Putting all this together, we have:</p>

\[r = d - f(x)b\]

<p>And with the help of r, we can now replace all \(x\)’s (the remaining time) with \(\frac{d-f(x)b}{g(x)}\), and then we can solve for \(g(x)\).</p>

<p>Back to our above equation, summing the two integrals:</p>

\[y = \frac{\mathrm{d}y}{\mathrm{d}t} = \frac{\int_0^b f(x) \mathrm{d}t + \int_0^x g(x) \mathrm{d}t}{b+x}\]

<p>This can be now modified to:</p>

\[y = \frac{\mathrm{d}y}{\mathrm{d}t} = \frac{\int_0^b f(x) \mathrm{d}t + \int_0^\frac{d - f(x)b}{g(x)} g(x) \mathrm{d}t}{b+\frac{d - f(x)b}{g(x)}}\]

<p>It’s worth stopping here for a second to recognize this above equation as the important bit. All we have left to do is plug in our known quantities and solve for g(x). But the abstract equation here helps us see that this equation should work in any scenario, even if the parameters are very different or f(x) is a very complicated function or even if g(x) needed to be variable function and not just a constant.</p>

<p>With that in mind, let’s solve our original practical problem with our known quantities.</p>

<p>If my goal remains 17mph and the overall route is 30 miles and \(T_1 = 1\) and my average at \(T_1 = f(x) = 15\), then</p>

\[17 = \frac{\int_0^1 15 \mathrm{d}t + \int_0^\frac{30-15(1)}{g(x)} g(x) \mathrm{d}t}{1+\frac{30-15(1)}{g(x)}}\]

<p>which reduces to:</p>

\[17 = \frac{15(1) + \frac{g(x)(30-15(1))}{g(x)}}{1 + \frac{30-15}{g(x)}}\]

<p>As the \(g(x)\) in the top fraction cancels out and a few more sums can be simplified, we can further reduce to:</p>

\[17 = \frac{15 + (30-15)}{1 + (\frac{30-15}{g(x)})}\]

\[17 = \frac{15 + 15}{1 + \frac{30-15}{g(x)}}\]

\[17 = \frac{30}{1 + \frac{15}{g(x)}}\]

<p>Cross multiply to get:</p>

\[17(1 + \frac{15}{g(x)}) = 30\]

<p>Distribute:</p>

\[17(1) + 17(\frac{15}{g(x)}) = 30\]

<p>And then solve:</p>

\[17(\frac{15}{g(x)}) = 30-17\]

\[17(\frac{15}{g(x)}) = 13\]

\[\frac{15}{g(x)} = \frac{13}{17}\]

\[15 = \frac{13}{17}(g(x))\]

\[\frac{15}{\frac{13}{17}} = g(x)\]

\[15(\frac{17}{13}) = g(x)\]

\[19.615 = g(x)\]

<p>Thus after traveling 1 hour at an average of 15 miles per hour, with only 15 miles left, I would need to average 19.615 mph over the next 15 miles to reach my goal of an overall average 17 mph for the entire trip.</p>

<p>The entire above set of calculations can be automated based on various input parameters and from there we get the BikeComputer Application which can provide a range of outputs depending on inputs.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/bikeComputer.png" alt="bikeComputerExample" /></p>

<p>Here you can see that given my average speed of 15 mph over 1 hour with 15 miles remaining, the speed needed to reach goal is calculated to be exactly what we concluded above 19.615.</p>

<p>But the computer shows more. It shows that if I persists at my current pace of 19mph over the next 15 miles, I will need 19 miles (not 15) to reach my goal, and that at the end of the remaining 15 miles I will only have achieved an average of 16.764 mph falling about 0.24 mph short of my goal.</p>]]></content><author><name></name></author><category term="math" /><summary type="html"><![CDATA[]]></summary></entry><entry><title type="html">Suchen und Finden von Bildern: Wie ein Text-Netzwerk ein Bild-Netzwerk werden kann</title><link href="jeffreycwitt.com/2020/11/05/textnetzwerk-bildnetzwerk/" rel="alternate" type="text/html" title="Suchen und Finden von Bildern: Wie ein Text-Netzwerk ein Bild-Netzwerk werden kann" /><published>2020-11-05T00:00:00+00:00</published><updated>2020-11-05T00:00:00+00:00</updated><id>jeffreycwitt.com/2020/11/05/textnetzwerk-bildnetzwerk</id><content type="html" xml:base="jeffreycwitt.com/2020/11/05/textnetzwerk-bildnetzwerk/"><![CDATA[<p>In Bezug auf IIIF und Discovery will ich nur einen Gedanken vorbringen und diesen dann illustrieren.</p>

<p>“Discovery of IIIF Resources” (Bildfindung) ist momentan in der IIIF-Gemeinde ein wichtiges Thema. Aber diese Discovery ist normalerweise die Entdeckung eines Buches oder einer Seite innerhalb eines Buches. Ich kenne den Titel ein Buch oder Handschrift, wie kann ich jetzt dieses Buch mit IIIF sehen? Das ist die übliche Frage.</p>

<p>Diese Fokussierung ist nachvollziehbar. Die IIIF Presentation API wurde schließlich für solche physischen Objekte gebaut. Und selbstverständlich zielen die ersten “Viewers” (die IIIF fördert) darauf, diese Objekte im virtuellen Raum zu zeigen. Das ist nicht falsch. Die Entdeckung eines IIIF Manifests bleibt wichtig.</p>

<p>Was ich hier vorbringen möchte, ist allerdings, dass diese Art von Entdeckung begrenzend ist. Sie begrenzt unsere Vorstellung davon, was ein Objekt ist oder sein kann. Und deswegen begrenzt sie unsere Vorstellung davon, was entdeckt werden kann und auf welchem Weg es entdeckt werden kann.</p>

<p>Wenn wir erkennen, dass der Inhalt eines Bildes (ich spreche hier von Bildern, die Texte beinhalten) mit Objekten in der Form von Text-Ideen erfüllt wird, dann werden wir neue Kandidaten für Entdeckungen finden.</p>

<p>Ich will Ihnen das zeigen.</p>

<p>In diesem Fall beginne ich nicht mit Bildern, sondern mit Texten. Diese beinhalten sowohl verborgene Idee-Objekte (wie Zitate, Verweise, Abschnitte) als auch  Verhältnisse (wie Nächstes, Vorheriges, Zitiert von, Beeinflusst von, und so weiter).</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/web.jpg" alt="text network" /></p>

<p>Wenn wir unsere Texte in einer Weise herausgeben können, dass diese Text-Objekte erkannt und in “Machine Actionable” Ressourcen verwandelt wurden, dann haben wir ein Text-Netzwerk. Wir können diesem Netzwerk vorwärts und rückwärts folgen.</p>

<p>So zum Beispiel, wenn ein Text “A” auf einen Bibel(f)vers B verweist oder ihn zitiert, wissen wir nicht nur, dass dieser Text diesen Bibelvers zitiert, sondern wir wissen auch, dass dieser Bibelvers B von Text A zitiert wurde. Das bedeutet, dass wir einen “bi (bee) direktionalen Link” haben. Und von dem Bibelvers B können wir alle Zitate dieses Verses in ihren historischen Verwendung sehen.</p>

<p>Nicht das:</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/links/Folie1.png" alt="text network" /></p>

<p>Aber das:</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/links/Folie2.png" alt="text network" /></p>

<p>Aus diesen bidirektionalen Links entsteht ein Text-Netzwerk. Hier fragen wir beispielsweise nach jedem Zitat von einem Vers aus dem ersten Korintherbrief, Kapitel 13.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/Icor13Network.gif" alt="ICor13 Netzwerk" /></p>

<p>Aber wir sind noch nicht fertig.</p>

<p>In der Textkritik ist es ein Ziel des Herausgebers, Transparenz zu erreichen. Der Herausgeber sucht nach den Zeugen für einen Text und arbeitet darauf hin, diesen Beweis dem Leser transparent zu machen. IIIF ist hierbei eine erhebliche Hilfe. Denn es gibt uns die Chance, mit Bildern diese Transparenz zu erhöhen.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/PeterOfSpainBerlin-2019-09-20/PlaoulImageComparison.gif" alt="Text Image Transparency" /></p>

<p>Aber was sind die Text-Zeugen? Aus einem historischen Blickwinkel ist die Bibel nicht nur der einzige Zeuge für einen Bibelvers. Jedes Zitat ist eine Art von Zeuge. Das Zitat ist ein Fenster dahin, wie ein Vers in einer spezifischen Zeit gesehen und gelesen wurde.</p>

<p>Aber wie können wir diese Zitate in einen kritischen Text bringen, und wie können wir die Bilder von diesen kleinen Zitaten, verborgen in vielen großen Bänden, entdecken?</p>

<p>Wenn wir uns vorstellen, dass ein Bild von einer Seite nicht ein einziges Bild ist, sondern eigentlich ein Behälter von einer unbegrenzten Menge von überlappenden, kleineren Bildern, dann haben wir neue Möglichkeiten: neue Ressourcen zu entdecken und neue Verbindungen zu schaffen.</p>

<p>Hier wird die IIIF Image API unumgänglich. Die IIIF Image API gibt uns die Möglichkeit, kleine Teile von einem großen Bild auszuwählen und viele verschiedene kleine Bilder zu schaffen.</p>

<p>Dann ist es möglich, mit unseren Text-Objekten und unserem Text-Netzwerk Verhältnisse zwischen einer Text-Idee und den entsprechenden kleinen Bildern, die diese Idee beinhalten, zu erschaffen.</p>

<p>Eine Eigenschaft von einem Text-Objekt (Zitat) ist die Zeile innerhalb einer Seite, wo das Text- Objekt steht. Diese Information genügt, um automatisch kleine Bilder “on the fly” zu erschaffen.</p>

<p>Man kann diese Verbindung in dieser Folie sehen.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/textExpansion/Folie8.png" alt="text-line-alignment" />
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/textExpansion/Folie9.png" alt="text-line-alignment" /></p>

<p>Mit diesen Verbindungen können wir unsere Kenntnis vom Text-Zitat Netzwerk nutzen, um all die Bilder-Zeugen von einem Bibelvers in einem Bild-Netzwerk zusammenzubringen, die durch die jahrhundertelange Geschichte von wissenschaftlichem Diskurs überall verstreut sind.</p>

<p>Und das kann man hier sehen.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/Icor13pictures.gif" alt="Icor13Pictures" /></p>

<p>Das Gif oben zeigt mehr als 67 Zitate von mehr als 16 verschiedenen Autoren mit Bildern, die von mindestens 10 verschiedenen Institutionen stammen.</p>

<p>Jetzt, wenn man die Bibel liest, kann man automatisch jedes Zitat in der Zukunft der Textgeschichte sehen, vergleichen, und dann mit perfekter Transparenz die Bilder hinter jeder Transkription von einer IIIF Institutionen abrufen und direkt sehen.</p>

<p>Und gewiss können wir diesen Entdeckungsprozess in entgegensetzter Richtung nachvollziehen. Von dem Text jedes Bibelvers können wir zu den Bild-Fragment gehen, und davon zu der Seite (oder IIIF Canvas), wo das Fragment steht, und dann weiter zu dem Buch (oder IIIF Manifest), das die Seite beinhaltet.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/Icor13FragmentToBook.gif" alt="Icor13 to Book" /></p>]]></content><author><name></name></author><category term="scta" /><category term="iiif" /><category term="deutsch" /><summary type="html"><![CDATA[In Bezug auf IIIF und Discovery will ich nur einen Gedanken vorbringen und diesen dann illustrieren.]]></summary></entry><entry><title type="html">Stop drawing boxes: automating IIIF annotations through text objects</title><link href="jeffreycwitt.com/2020/06/03/stop-drawing-boxes/" rel="alternate" type="text/html" title="Stop drawing boxes: automating IIIF annotations through text objects" /><published>2020-06-03T00:00:00+00:00</published><updated>2020-06-03T00:00:00+00:00</updated><id>jeffreycwitt.com/2020/06/03/stop-drawing-boxes</id><content type="html" xml:base="jeffreycwitt.com/2020/06/03/stop-drawing-boxes/"><![CDATA[<h1 id="introduction">Introduction</h1>

<p>In this short post, I want to share with the IIIF manuscript community some of the research possibilities that IIIF enables.</p>

<p>But I also want to be a little provocative and point out that IIIF alone does not automatically guarantee these outcomes. Much depends on how we use IIIF in the midst of larger data modeling and data workflows.</p>

<p>More specifically, genuine research advances depend on the kinds of annotations we make and the kinds of relationships that are created through these annotations.</p>

<p>I titled this post “stop drawing boxes” to address the understandable temptation that most IIIF viewers create to directly annotate transcriptions of text objects onto regions of a page.</p>

<p>Most IIIF viewers privilege the book form, and thus they prioritize the hierarchy of the medium (books, quires, folios, and folio sides) over other hierarchies such as the hierarchy of the content carried (or manifested) by the medium.</p>

<p>Without denying the value and importance of this perspective, a great deal of research is interested in manuscripts, because they function as forensic witnesses to something more abstract, namely the textual idea.</p>

<p>But the material focus of these viewers (evidenced by their orientation around the “page” as the fundamental unit of presentation), combined with the easy to use annotation tools that accompany them, invites us to make transcription annotations about textual phenomenon through directly targeting a material region on a page rather than a textual idea.</p>

<p>For me, this is a conceptual confusion that at first seems benign but results in lost potential.</p>

<p>This loss of potential is to my mind a partial explanation for a complaint I hear from time to time within the IIIF community: namely, why haven’t we been able to get more scholars excited about the potentials of IIIF?</p>

<p>But I think we have to be honest. If we allow IIIF to become synonymous with zooming images or the mere ability to add comments to a page, then we do IIIF a disservice. Image navigation and direct annotation is not much different than the experience offered by a PDF or common desktop image software. But IIIF, combined with rigorous thinking/modeling of the content carried by the manuscript page, can enable much more.</p>

<h1 id="automated-generation-of-meaningful-comparison">Automated generation of meaningful comparison</h1>

<p>Thus, let me offer one concrete example.</p>

<p>A selling point of IIIF and a viewer like Mirador to the manuscript community is the possibility of enhanced comparison that should enhance research.</p>

<p>Such comparison is common work in the world of forensic critical textual studies and in source identification work, i.e. tracking the original composition and re-use of textual passages, from biblical passages, to Aristotelian quotations, or to passage re-use among contemporaries and colleagues.</p>

<p>As evidence here, I point to an article from 2008 by Venicio Marcolino.</p>

<p>In the image below Marcolino attempts to trace and identify parallels between two texts in the fourteenth century, each of which survive in manuscript witnesses, one at the British Library, the other at the BSB.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/gracilisBaselIIIFPost/marcolinoConnections.png" alt="Marcolino picture" /></p>

<p>Thanks to IIIF, it is easy to bring these witnesses together.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/gracilisBaselIIIFPost/gracilis-basel-thumbnails.png" alt="mirador with manuscripts: gracilis and Basel" /></p>

<p>But it doesn’t automatically make comparison easy. These are large manuscripts filled with a lot of content. It takes a tremendous amount of labor to find units of texts within each respective manuscript to create meaningful comparison.</p>

<p>One might object that this where a table of contents can help us facilitate comparison.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/gracilisBaselIIIFPost/gracilis-basel-toc.png" alt="table of contents of gracilis and basel" /></p>

<p>But this misses the point for two reasons.</p>

<p>First because the points of comparison pointed to here are granular and precise. Even a very precise table of contents (which when done manually is unrealistic to expect) typically only gets us to a page on which a text object is somewhere to be found, which then must be again discovered in a separate manuscript on a separate folio in order for the comparison to be made. (The orientation here is to discover pages when the users really want to find textual ideas.)</p>

<p>Once found, the temptation is to “draw a box” and mark the conceptual point of comparison.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/gracilisBaselIIIFPost/gracilis-basel-box-annotations.png" alt="making direct annotations" /></p>

<p>This is my plea. Please don’t do this!</p>

<p>Think about what you are you trying to mark. There is a better way.</p>

<p>This leads to the second reason the objection about using a table of contents misses the point.</p>

<p>Comparison facilitated via table of contents navigation or direct image region annotation misses the point because the entire approach is predicated on the underlying assumption that a human being has already discovered the points of comparison and now we simply want to record what we already know with the book page coordinate system.</p>

<p>The ability to record this is a valuable thing that IIIF lets you do. But I wouldn’t regard it as earth shattering. It is certainly something I could approximate with a PDF, and if I’m a researcher with an already established practice of using PDFs to mark my discoveries, I’m unlikely to change my practice just because IIIF sounds cooler than PDF.</p>

<p>However, IIIF, accompanied by the right kind of textual modeling, can do much more.</p>

<p>It can be a piece in a larger workflow that enables the <strong>automated</strong> discovery and annotating of granular and directly comparable image units.</p>

<p>By focusing our transcription annotations on text objects rather than image regions, we can automate the discovery of textual parallels and then trace these parallels back to the media that manifest or carry them.</p>

<p>Modern computer vision algorithms are fairly reliable at capturing the lines of a text, so let’s let the computer do this work.</p>

<p>But they are not going to capture textual units that are not represented visually.</p>

<p>So let’s separate this work. Instead of attaching text transcriptions to lines, let’s attach our transcriptions to textual units and then map those units to lines.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/textExpansion/Folie7.png" alt="image of lines to manifestations and expression" /></p>

<p>From here, as the above image shows, we can easily move from any textual object to any corresponding regions on any sister witnesses to the same textual idea.</p>

<p>Further, as seen below, as we discover other kinds of parallels between textual ideas, we can move out to these as well and discover where these textual ideas manifest themselves in corresponding witnesses.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/textExpansion/Folie9.png" alt="images of expressions to expressions out to manifestation and lines" /></p>

<p>Now that we have the transcription organized according to textual units rather than broken up by the material line, we can automate the comparison of logical chunks.</p>

<p>The script below loops over all the paragraph chunks in the Gracilis text and calculates a comparison to every paragraph chunk in the Basel text.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/gracilisBaselIIIFPost/gracilis-basel-annotation-generation.png" alt="python script generating n-gram similarity" /></p>

<p>Results could be output as annotations, which can be loaded into a viewer.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/gracilisBaselIIIFPost/load-annotations.png" alt="import annotation list in lbp-web" /></p>

<p>Text transcriptions can then be easily compared at a granular level to inspect the results.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/gracilisBaselIIIFPost/text-collation.png" alt="check text comparison with custom addition" /></p>

<p>For each of the 22 total parallels identified by Marcolino, the computer first discovered between 1 and 9 possible Basel matches out of a possible 1,227. After filtering by the highest percentage matches per paragraph, the computer correctly identified 19 out of the 22 connections. But this high percentage of 86% also hides the fact that in many cases the computer has identified matching passages with much more precision than Marcolino, and even on one occasion corrected parallels asserted by Marcolino.</p>

<p>And accordingly, by targeting a text passaged that can be mapped to each other and manuscript regions, we can easily move from here to each of the precise image regions carrying/manifesting this text passage. See below.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/gracilisBaselIIIFPost/gracilis-basel-image-comparison.png" alt="check image compare with custom image" /></p>

<p>I would like to stress here that the regions coordinates seen here were never manually mapped. They were constructed from combining the auto-generated line coordinates with the semantic structuring of the content text into logical chunks.</p>

<p>In this way, these results, unlike Marcolino’s, are fully transparent. I’ve not only discovered in seconds nearly all the connections asserted by Marcolino with more specificity, but I’ve also in the very same act connected the manuscripts from the BSB and the British Library at a useful level of specificity.</p>

<p>Finally, we might note how this could scale.</p>

<p>Here, I’ve run the same n-gram similarity algorithm for a verse in the Bible Hebrews 11:1.</p>

<p>These results can be confirmed and then be indexed. Now I not only have a corpus index of texts that cite Hebrews 11:1, but I also have at the same time a global index of manuscript regions that target the precise lines where this quotation appears.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/gracilisBaselIIIFPost/hebr11_1-index-with-images.gif" alt="Gif of hebrews 11_1 index search" /></p>

<p>All of this without ever drawing a box!</p>

<p>In short, what we see here is a reversal in the traditional path of discovery. In the pursuit of viewing a particular quotation, we normally use the reference system of manuscript number, and then a folio number, and then perhaps, if we are lucky a line number.</p>

<p>Instead, we are now targeting the quotation directly as a textual idea, which can then self-report on what regions, pages, or manuscripts it may be found.</p>]]></content><author><name></name></author><category term="scta" /><category term="iiif" /><summary type="html"><![CDATA[a post on automating meaningful, comparable, IIIF annotations by abstracting from canvas annotations and focusing on text objects as annotation intermediaries.]]></summary></entry><entry><title type="html">Forscher und Institutionen via IIIF verbinden</title><link href="jeffreycwitt.com/2018/10/15/leipzig-iiif-scta/" rel="alternate" type="text/html" title="Forscher und Institutionen via IIIF verbinden" /><published>2018-10-15T00:00:00+00:00</published><updated>2018-10-15T00:00:00+00:00</updated><id>jeffreycwitt.com/2018/10/15/leipzig-iiif-scta</id><content type="html" xml:base="jeffreycwitt.com/2018/10/15/leipzig-iiif-scta/"><![CDATA[<p>Danke ihnen. Ich bin sehr froh hier zu sein und ich freue mich Ihnen ein bisschen erzählen zu dürfen, warum IIIF wichtig für Forscher der mittelalterlichen Geistesgeschichte ist und warum IIIF ein Mittel sein kann, die Zusammenarbeit zwischen Forschern und Kulturerbe-Institutionen effizienter zu gestalten.</p>

<p>Ich leite ein digitales Archiv, zusammengesetzt aus Text-Daten, die ein mittelalterliches scholastisches Korpus repräsentieren. Dieses Archiv heißt die Scholastic Commentaries and Texts Archive (oder kurz SCTA) und ist Teil von einem Projekt, Text-Daten verfügbar zu machen, die in den mittelalterlichen Handschriften versteckt sind.  Und wir versuchen das auf eine wissenschaftliche Art und Weise zu tun.</p>

<p>Dieser wissenschaftliche Anspruch erzeugt den  Wunsch  nach  Vollständigkeit und Transparenz. Eine wissenschaftliche Edition in der digitalen Welt hat das Potenzial, jede editorische Entscheidung transparent zu machen. Ein Forscher muss nicht mehr  nur auf die Interpretation eines Editors vertrauen, sondern kann in die Lage versetzt werden, den Kontext  jeder editorischen Entscheidung wiederherzustellen und diese Entscheidung nachzuvollziehen.</p>

<p>Obwohl dies sehr attraktive Möglichkeiten sind, bleiben sie nur Theorie ohne die Kooperation der weltweiten Forschungsgemeinde.</p>

<p>Dazu müssen wir die Frage stellen: welche Anreize haben die Institutionen, solche Kooperationen einzugehen? Sie geben wahrscheinlich zu, dass es sehr toll sein würde, wenn Forscher diese Art von Editionen machen würden. Aber eine Selbstverpflichtung zu einer weltweiten Kooperation wie überhaupt  jeder  Wechsel zu  einem neuen Ansatz kann teuer und schwierig sein, also müssen wir auch die Vorteile klar machen.</p>

<p>Meine These ist, dass, wenn wir uns selbst genügend organisieren und wenn wir die richtige Technologie haben, d.h. wenn wir Daten nach allgemeinen Standards öffentlich machen, bekommen die Kulturerbe-Institutionen gleich viel oder sogar mehr zurück als sie investiert haben.</p>

<p>Im Folgenden versuche ich diese Möglichkeit mit einem ausführlichen Beispiel zu illustrieren.</p>

<p>Einer der zentralen Texte der SCTA stammt aus dem zwölften Jahrhundert. Es ist eine Sammlung von „Sentenzen“ von einem gewissen Petrus Lombardus. Dieser Text wurde die ganzen folgenden Jahrhunderte hindurch von mittelalterlichen Autoren genutzt und kommentiert.</p>

<p>Im Rahmen eines Versuchs, ein möglichst vollständiges Bild dieser Kommentartradition zu erhalten, versuchen wir, alle Zeugen von diesem Sentenzen-Text zusammenzubringen. Wir versuchen nicht nur Verweise zu machen, sondern die Zeugen verfügbar zu machen und Möglichkeiten zu bieten, sie auf einer Plattform direkt miteinander zu vergleichen.</p>

<p>Das Problem ist natürlich, dass keine einzelne Institution alle diese Zeugen besitzt. Im Gegenteil: sie liegen auf der ganzen Welt verstreut. Bei dieser Ausgangslage hat keine Institution Lust, Anreiz oder Geld, eine komplette Sammlung anzustreben. Die Forscher hingegen hätten natürlich Interesse daran, aber sie haben weder die Ressourcen, all die Zeugen zu sammeln, noch eben die Zeit, all diese Handschriften einzusehen und zu studieren. Meistens werden daher starke Kompromisse eingegangen. Einige besondere Handschriften werden ausgewählt und der Rest der Überlieferung wird übergangen. Obwohl solche Auswahlen nachvollziehbar sind, wird der Traum von Vollständigkeit doch geopfert und viele kleine, aber wichtige Handschriften bleiben vergessen und werden nicht in die Kommentartradition integriert. Und, weil sie mit dem Rest der Überlieferung nicht verbunden werden, sind sie schwierig zu studieren und entsprechend kaum zu würdigen. So stehen sie isoliert und abgetrennt von der Tradition, in der sie eigentlich von Bedeutung wären.</p>

<p>Ein Beispiel gibt es hier in Leipzig: ein kleines Fragment eines winzigen Teils von Petrus Lombardus’ Sentenzen. Unter dem üblichen Druck von Geld und Zeit würde dieses Fragment vergessen werden. Aber im Zusammenhang der ganzen Überlieferung und als Vergleichsgröße für diese wäre es trotzdem wichtig. Denn es ist ein einzigartiger Zeuge mit Teilen einer Marginalglosse, der in der Tat ein Unikat sein dürfte. Kurz gesagt: beim gerade beschriebenen, herkömmlichen Zugang vernachlässigen wir sie nicht etwa, weil sie nicht wichtig wäre, sondern weil die Zugangshürde zu hoch ist, um den Aufwand zu rechtfertigen.</p>

<p>Mit IIIF sieht die Lage anders aus. Ein einzelnes Bild von diesem Zeugen, zur Verfügung gestellt vom Fragmentarium-Projekt in der Schweiz, wird für mich als Forscher unmittelbar nutzbar. Auf diese Art und Weise können wir alle mit unseren verschiedenen Interessen gewinnen. Denn Leipzig hat natürlich ein Interesse an all den Handschriften, die in Leipzig sind, Fragmentarium hat ein allgemeines Interesse an Fragmenten weltweit, und die SCTA hat ein Interesse an all den Handschriften, die Lombardus Text enthalten.</p>

<p>Hierzu kann ich ein Beispiel zeigen.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-ldn-leipzig-example.png" alt="Folie 1" /></p>

<p>Hier können Sie sehen, dass ich nach allen Handschriften gefragt habe, die Lombardus Text enthalten, aber die auf der ganzen Welt verstreut liegen, doch mit der Hilfe von IIIF habe ich alle diese Zeugen an einem Ort vereint. Stellen Sie sich einen Forscher vor, der kein Interesse an Fragmenten hat und keine Ahnung hatte von der Sammlung in Leipzig. Plötzlich, durch sein Interesse an Lombardus und an bereits bekannten Handschriften entdeckt er eine neue interessante Handschrift und hat unmittelbar Zugang dazu. Ohne IIIF und die Kooperation von Kulturerbe-Institutionen würde diese Entdeckung unmöglich bleiben.</p>

<p>Es geschieht etwas, wenn man einen neuen Gegenstand innerhalb eines Beziehungsnetzes, das schon Bedeutung hat, entdecken kann. Plötzlich generiert auch er ein Interesse, das er in einem anderen Zusammenhang nicht haben würde.</p>

<p>Und wenn wir die Werkzeuge gleich zur Hand haben, um etwas mit diesem Gegenstand anfangen zu können, ist es wahrscheinlicher, dass wir wirklich damit arbeiten.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-teiwebeditor-leipzig.png" alt="Folie 2 - Bild von TEI-WEB-EDITOR" /></p>

<p>In meinem Fall, wie Sie hier sehen können, habe ich einen einfachen Text-Editor kreiert, mit dem man schon existierende Transkriptionen benutzen kann, um eine neue Transkription zu erstellen, die alle Varianten in diesem Fragment festhalten kann.</p>

<p>Und mit dieser neuen ergänzenden Information können wir dieselbe Information als Annotationen benutzen und teilen.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-leipzig-comparison.png" alt="Folie 3 - Bild von Mirador Table of Contents" /></p>

<p>Hier kann man sehen, dass das Inhaltsverzeichnis einer Edition eine Navigationshilfe für Handschriften werden kann.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-ldn-leipzig-transcriptions.png" alt="Folie 4 Bild von Mirador Transkription" /></p>

<p>Und der Text einer Edition kann ein Hilfstext werden, der es leichter macht, die Handschrift zu erforschen.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-leipzig-text-search.png" alt="Folie 5 Bild von Mirador Search" /></p>

<p>Hier kann man auch sehen, dass der Text die Basis für einen Suchdienst werden kann, mit dem man in der Handschrift navigieren kann.</p>

<p>Aber diese Informationen sind nicht begrenzt innerhalb irgendeiner bestimmten Website oder eines Interfaces. Sie sind frei und verfügbar zur Verwendung und Wiederverwendung.</p>

<p>Beispielsweise können wir statt in einer Bild-zentrierten Applikation wie Mirador dieselben Daten ein zweites Mal in einem Text-zentrierten Interface anzeigen, bei dem die Bilder nunmehr als Annotationen erscheinen.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-lbp-leipzig-1.png" alt="Folie 6 LombardPress" /></p>

<p>Hier können wir verschiedene Versionen des Textes sehen und die Bilder als Evidenz für die editorischen Entscheidungen konsultieren. Hier können Sie sehen, dass ich den Text vom Leipzig Fragment zeige.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-lbp-leipzig-2.png" alt="Folie 7 LombardPress" /></p>

<p>Und es ist genauso leicht das Leipzig Fragment zu zeigen wie eine ganze andere Handschrift, die, zum Beispiel, in Baltimore ist.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-lbp-leipzig-3.png" alt="Folie 8 LombardPress" />
<img src="{ site.assets_url }}iiif-collation-leipzig-1.png" alt="Folie 9 LombardPress" /></p>

<p>Und mit dem Text von diesen Handschriften können wir leicht Text vergleichen.</p>

<p><img src="{ site.assets_url }}iiif-adfontes-leipzig-1.png" alt="Folie 10 Ad fontes" /></p>

<p>Dazu kann ich in einer ganz anderen App sein und diese Daten abermals in einer neuen Form antreffen. Diese App wurde entworfen, um Zitate zu studieren. Und wenn ich nach einem spezifischen Zitat suche, finde ich nicht nur den Text, sondern Zugang zu dem Text in jeder Handschrift und auch den jeweiligen Bildern jeder Handschrift.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-adfontes-leipzig-2.png" alt="Folie 11 Ad fontes" />
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-adfontes-leipzig-3.png" alt="Folie 12  Ad fontes" /></p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/custom-manifest-leipzig1.png" alt="Folie 13 Mirador, quotation, marginal note, manifest" /></p>

<p>Und wieder kann ich dieselbe Zitat-Information, die hier aus der SCTA stammt, und die IIIF-Canvas Information, die aus verschiedenen Kulturerbe-Institutionen stammt, benutzen, und damit eine neue Art “IIIF Manifest” erschaffen; ein “Manifest”, das alle “Canvases” zeigt, die ein spezifisches Zitat enthalten.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/custom-manifest-leipzig2.png" alt="Folie 14" />
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/custom-manifest-leipzig-3.png" alt="Folie 15" /></p>

<p>Oder ein “Manifest” dass alle “Canvases” zeigt, die eine Randnotiz enthalten. Ich glaube, es ist nicht schwierig sich vorzustellen, wie nützlich ein solches Manifest sein kann. Wenn eine Forscherin oder ein Forscher Interesse an der Geschichte von Fußnoten oder Zitations-Praktiken hat, würden sie ein solches Manifest sehr wertvoll finden.</p>

<p>Aber lassen Sie uns am Ende zur ursprünglichen Frage zurückkehren. Es ist sehr nett, dass die Mitarbeitenden dieser Institutionen diese Beispiele in IIIF ermöglichen. Aber was bekommen diese Institutionen zurück? Jenseits der Nutzung von ihren Bildern durch das Internet hindurch ist es auch für diese Institutionen möglich, Daten zurück zu bekommen, welche andere Forscher weltweit inzwischen erzeugt haben.</p>

<p>Im Prozess der Erarbeitung einer kritischen Edition, generieren Forscher oft tausende kleine Datensätze, die von hoher Relevanz für die verstreut liegenden Handschriften sind. Es sind viel zu viele Daten, um sie in ein Buch aufzunehmen, aber wenn die Informationen von den Grenzen eines statischen Buchs befreit sind, können sie zahlreichen Nutzern von einzelnen Bibliothekssammlungen weiterhelfen. In der Vergangenheit hatten wir keine sinnvolle Möglichkeit, diese Daten den Institutionen zurückzugeben, und aus diesem Grund haben wir verworfen, was sich nicht in ein Buch einfügen ließ.</p>

<p>Um diese Situation zu verbessern, haben wir eine Methode entwickelt,  damit Forscher und Forschungs-Gemeinden via IIIF Bibliotheken und Museen informieren können, wenn sie Daten erschaffen haben, die zu ihren Sammlungen in Beziehung stehen. Und wir haben einen Ansatz entwickelt, dass IIIF Viewers (wie Mirador) diese Daten nahtlos in ihrer Nutzeroberfläche importieren können.</p>

<p>Lassen Sie mich mit ein Paar Beispielen aufhören:</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-ldn-leipzig-fragmentarium.png" alt="Folie 16" /></p>

<p>Hier können Sie sehen, dass ich mit einer Suche bei Fragmentarium (oder Universität Leipzig) anfange. Ich entdecke eine Handschrift von Interesse und ich importiere diese Handschrift in Mirador. So weit so gut. Ich kann diese Handschrift erforschen, aber es ist noch schwierig, darin zu navigieren. Ich brauche ein Inhaltsverzeichnis und Transkriptionen. Es wäre schade, wenn Fragmentarium oder andere Institutionen diese Information erzeugen müssten, denn ich habe diese Information schon erarbeitet als Teil von meiner Forschung.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-ldn-leipzig-announcement.png" alt="Folie 17" /></p>

<p>Aber mit IIIF und einer Technologie, die „Linked Data Notifications“ heißt, kann ich jetzt eine Mitteilung machen, und durch diese Mitteilung sind meine Forschungsdaten verfügbar und verbunden mit diesen Bildern von Fragmentarium.</p>

<p>Nachdem ich, als Forscher, eine Mitteilung gemacht habe, kann ein anderer Nutzer in einem vollkommen verschiedenen Zusammenhang, vielleicht auf der Website von einer Bibliothek oder anderen Institution, Zugang zu dieser Information haben.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-ldn-leipzig-oldtoc.png" alt="Folie 18 screen shot of mirador list" /></p>

<p>Also, hier können Sie den Text sehen, wie er bei Fragmentarium scheint, mit minimalistischem Inhaltsverzeichnis und ohne Transkription.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-ldn-leipzigms.png" alt="Folie 19" />
Aber jetzt nach meiner Mitteilung kann ein Nutzer, ohne mich oder die SCTA zu kennen, per Klick  eine Liste von verfügbaren ergänzenden Forschungsdaten bekommen.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-ldn-leipzig-newtoc.png" alt="Folie 20, 21" />
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-ldn-leipzigms.png" alt="Folie 21" />
<img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/iiif-ldn-leipzig-transcriptions2.png" alt="Folie 22" /></p>

<p>Und dann, mit einem Klick, kann die Nutzerin oder der Nutzer entscheiden, ob er diese Information importieren will oder nicht.</p>

<p>Ich bin der Meinung, dass wir hier nur den Anfang dessen sehen, was Möglich ist. Aber ich hoffe, deutlich gemacht zu haben, dass wir diese Möglichkeiten nur realisieren können, wenn wir zusammenarbeiten. Konkret bedeutet dies, dass wir allgemeinen Standards wie IIIF folgen müssen. Aber ich hoffe, ebenso klar gemacht zu haben, dass diese Arbeit sich lohnt. Die zusätzliche Mühe, die gefordert ist, um diese Möglichkeiten zu realisieren, zahlt sich [fast schon] automatisch aus, und alle können gewinnen: sowohl die Kulturerbe-Institutionen als auch die Forschenden und die Forschungs-Gemeinden.</p>

<p>Jetzt freue ich mich auf Ihre Fragen und ich bin auch gerne bereit, einige meiner Demonstrationen mit ein bisschen mehr Details zu zeigen.</p>]]></content><author><name></name></author><category term="scta" /><category term="iiif" /><category term="deutsch" /><summary type="html"><![CDATA[Transkription meines Vortrags bei Leipzig Universität "Outreach" Veranstaltung]]></summary></entry><entry><title type="html">SCTA und Topic Modelling: ein DAAD Bericht</title><link href="jeffreycwitt.com/2018/10/15/SCTA-und-topic-modelling-ein-DAAD-Bericht/" rel="alternate" type="text/html" title="SCTA und Topic Modelling: ein DAAD Bericht" /><published>2018-10-15T00:00:00+00:00</published><updated>2018-10-15T00:00:00+00:00</updated><id>jeffreycwitt.com/2018/10/15/SCTA-und-topic-modelling-ein-DAAD-Bericht</id><content type="html" xml:base="jeffreycwitt.com/2018/10/15/SCTA-und-topic-modelling-ein-DAAD-Bericht/"><![CDATA[<p>SCTA und Topic Modelling: ein DAAD Bericht</p>

<p>Mit der Explosion von Daten wird die Frage der Zukunft nicht sein, “Ist dieser Text oder sind diese Daten verfügbar?”, sondern “Können wir diesen Text oder Text-Teil finden in dem Stapel dessen, was verfügbar ist?”</p>

<p>Die wissenschaftliche Gemeinde lagert diese Aufgabe der adäquaten Auswahl von Informationen auf eigene Gefahr aus. Wenn Daten theoretisch verfügbar sind, aber noch nicht auffindbar, dann ist dies ein Problem von Kuration. Wenn wir tausende oder sogar Millionen Ergebnisse haben, können wir nicht alle diese Ergebnisse untersuchen. Wir müssen auswählen und das ist Kuration. Kuration ist eine Art von Auswahl beruhend auf Grundsätzen. Wissenschaftliche Entdeckung fordert Kuration beruhend auf wissenschaftlichen Grundsätzen. Diese Kuration auszulagern und zum Beispiel Google zu überlassen, heißt, mit unwissenschaftlichen Ergebnissen zu arbeiten. Wir, die Fachleute, müssen die Verantwortung wieder übernehmen, die neuen digitalen Ansätze zu lernen und anzuwenden, so dass wir in der Lage sind, an der Aufgabe von Kuration teilzunehmen.</p>

<p>Mithilfe des Deutschen Akademischen Austausch-Dienstes habe ich als Leiter des SCTA (Scholastic Commentaries and Texts Archive, https://scta.info) einen ersten Schritt in diese Richtung gemacht, einen ersten Versuch, diese Verantwortung zu übernehmen.</p>

<p>Anfang Oktober 2018 habe ich mit meinem Kollegen Dr. Thomas Köntges bei der Digital Humanities Lab an der Universität Leipzig versucht, einen Ansatz des “Natural Language Processing” Ansätze, nämlich das sogenannte  “Topic Modelling”,  auf das SCTA Korpus anzuwenden.</p>

<p>Die Grundidee ist, dass wir mit der Kombination von Computer-Rechenleistung und Fachkenntnis ein Profil jedes Absatzes im Scholastik-Korpus bauen können. Mit diesen Profilen können wir erwartete und unerwartete Verbindungen im gesamten Korpus entdecken.</p>

<p>Nichts von dem wäre möglich gewesen ohne die Fachkenntnis und Zusammenarbeit mit Dr. Thomas Köntges. Dr. Köntges hat eine wichtige Applikation entwickelt, die “ToPan” heißt und mit der man Texte analysieren und “Topics” erschaffen kann.</p>

<p>In dem Bild unten kann man ein Beispiel eines Topics sehen, das von Dr. Köntges Applikation “ToPan” erzeugt wurde.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/toPan-topic-modelling-viz.png" alt="Topan" /></p>

<p>Mit diesen Topics oder Themen kann man dann dieses Korpus unterscheiden und sortieren.</p>

<p>Die Frage ist nur: Wie kann man ein so riesiges Korpus wie das SCTA Korpus automatisch in diese Applikation eingeben? Um das zu schaffen, habe ich ein “CSV API” für das ganze SCTA-Korpus erzeugt. Dieses API macht Millionen von Lateinischen Wörtern, die in scholastischen Texten gefunden werden, in einer Form verfügbar, die eine Applikation wie “ToPan” verstehen kann.</p>

<p>Der nächste Schritt, bevor diese Ergebnisse nützlich sein werden, ist diese Ergebnisse in solcher Weise zu veröffentlichen, dass sie von anderer “Client Applications” gebraucht werden können. Dr. Köntges hat schon eine weitere Applikation entwickelt, die Metallo heißt, um diese Ergebnisse darzustellen. Zusammen haben wir diese Applikation modifiziert, so dass sie die Ergebnisse als nützliche Daten verfügbar machen kann, nämlich als “JSON data”.</p>

<p>Nach diesen Schritten waren wir jetzt in der Lage, diese Ergebnisse zu benutzen, um unseren Text und Suchdienst zu verbessern.</p>

<p>Die offensichtlichste Anwendung von diesen Absatz-Profilen ist, Nutzern zu erlauben,  Suchergebnisse nach Themen zu gliedern und zu sortieren. Auf diese Art und Weise vermeiden wir unwissenschaftlichen Gebrauch von Suchergebnissen, worin wir nur die ersten Suchergebnisse wählen, weil sie zuerst vorkommen, und nicht, weil sie die besten sind oder (sie) am Besten zu unserer Forschung passen.</p>

<p>Zum Beispiel kann man in dem ersten Bild unten eine Liste von unsortierten Suchergebnissen sehen. Der Suchdienst hat das Ergebnis “potentia absoluta” in vielen verschiedenen Absätzen gefunden, aber das Absatz-Profil und ein verbundenes Thema weisen darauf hin, dass die folgenden Absätze dieselbe Phrase, “potentia absoluta”, in drei verschiedenen Diskussionen benutzen.  <!-- left off with corrections here 6/4 --></p>

<p>Ein einfaches Beispiel wäre: eine rohe Suche für das Wort “Leiter”, die Absätze zurücksendet, die sowohl etwas mit einem Bergsteiger als auch mit einem Chef von einem Geschäft zu tun haben. Mithilfe von Topic Modelling können wir diese verschiedenen Diskussionen sortieren, wie man in dem zweiten Bild sehen kann.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/lbp-topic-modelling-search-results1.png" alt="TopicModellingSearchResults1" /></p>

<p>Hier kann ein Nutzer ein Topic auswählen und nur die Absätze sehen, die etwas mit dieser Diskussion zu tun haben.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/lbp-topic-modelling-search-results2.png" alt="TopicModellingSearchResults1" /></p>

<p>Aber die Sortierung von Suchergebnissen ist nur der Anfang.</p>

<p>Mithilfe von einem Profil für jeden Absatz zielen wir darauf, einen Empfehlungsdienst zu bauen. Solch ein Dienst sollte einen traditionellen Anspruch erfüllen, nämlich, die Fähigkeit Nutzer zu verknüpfte Diskussionen zu führen.</p>

<p>In diesem Bild können wir sehen, dass das ein traditionelles Ziel ist.</p>

<p>Cremona 1618
https://books.google.com/books?id=h2IUiZ6aYZUC&amp;pg=PA66#v=onepage&amp;q&amp;f=false</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/scholion-cremona1618-example.png" alt="TopicModellingSearchResults1" /></p>

<p>Viele weitere Beispiele aus dem 16. und 17. Jahrhundert könnten gefunden werden.</p>

<p>Aber dieser Anspruch hat sogar bis in die moderne Zeit angehalten.</p>

<p>Das Skolion der Ausgabe von Bonaventure aus dem späten 19. Jahrhundert ist ein treffliches Beispiel.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/bonaventure_scholion.png" alt="TopicModellingSearchResults1" /></p>

<p>Diese Arten von Verbindungen sind wichtig. Sie machen uns den größeren Zusammenhang bewusst. Einige Verbindungen könnte ein Fachmann / eine Fachfrau vorhersehen. Wir können erwarten, dass ein Kommentar zu Distinctio 17 sich auf viele andere Kommentare zu Distinctio 17 beziehen kann.</p>

<p>Aber unsere Erwartungen sind auch unsere Grenze, denn wir suchen Verbindungen nur dort, wo wir diese erwarten. Und offensichtlich bleiben uns jene Verbindungen verborgen, die wir nicht erwarten.</p>

<p>Die Hilfe, hier von wohlmeinenden Herausgebern zur Verfügung gestellt, gibt uns nur ein Muster von Verbindungen. Diese ist jedoch keineswegs umfassend oder wissenschaftlich. Sie ist nur eine Auswahl, die auf den Vorlieben des Herausgebers beruht. Und obwohl diese Auswahlen oft hilfreich sein könnten, steuern sie trotzdem die Richtung aller nachfolgenden Forschung, entgegen jeder Forderung von Wissenschaft oder historischer Genauigkeit. Ist der Verweis in der Bonaventura Skolion auf die parallele Diskussion in Gregory Biel nur da, weil diese in Biel eng verbunden mit jener in Bonaventure ist? Enger oder wichtiger als alle Diskussionen, die zwischen der Zeit Bonaventures und der Zeit Biels (fast zweihundert Jahre) stattgefunden haben, die trotzdem nicht erwähnt sind? Es ist wahrscheinlicher, dass Biel im Kopf des Herausgebers einer der “Big Guys”, einer der “wichtigen Scholastiker,” ist und deshalb ist ihm diese Diskussion bewusst. Dieser Prozess allerdings ist ein Teufelskreis. Biel ist gelistet, während viele andere spätere Scholastiker nicht gelistet sind, weil der Herausgeber glaubt, dass Biel wichtiger ist. Nachforscher sehen diese Liste und orientieren ihre Arbeit daran. Aufgrund der begrenzten Zeit entscheiden sich die nachfolgenden Forscher von diesem Skolion, die Diskussion von Biel zu untersuchen und übersehen die anderen Diskussionen. Also geht der Kreis weiter und unweigerlich entdecken wir nur, was unsere bisherigen Entscheidungen uns erlauben zu entdecken.</p>

<p>Was wir brauchen, ist ein wissenschaftlicherer und umfassenderer Ansatz: ein Ansatz, der die Diskussionen enthüllt, die von unseren Vorurteilen versteckt werden.</p>

<p>“Topic Modelling” kann uns hier helfen. Mit der Hilfe gewaltiger Computerrechenleistung können wir die Relevanz jedes Absatzes betrachten; nicht nur die Absätze, die uns schon bekannt sind. Der Computer kann ein Profil von jedem Absatz bauen und wir können dieses Profil benutzen, um verbundenen Passagen zu empfehlen und anzuzeigen.</p>

<p>Während meiner Zeit in Leipzig habe ich mit Dr. Köntges ein Beispiel entworfen, um diese Möglichkeiten zu demonstrieren.</p>

<p>Unten kann man sehen, was passiert, wenn man nach mehr Information über diesen Absatz fragt. Zunächst bekommt man eine Liste von Absätzen mit einer direkten Verbindung zum entsprechenden Absatz. Diese Verbindungen sind die gefundenen Ergebnisse eines Forschers. z.B. dieser Absatz zitiert den Anderen und so weiter.</p>

<p>Aber unten ist eine neue Liste von verbundenen Absätzen, dessen Verbindungen von Computer bestimmt wurden. Und in diesem Fall hat der Computer das ganze Korpus analysiert und deshalb kann er Passagen empfehlen, die jenseits der Vorurteile des Herausgebers bestehen.</p>

<p>Und abermals, in demselben Bild können wir diese in Beziehung stehende Absätze in einer graphischen Darstellung.</p>

<p><img src="https://s3.amazonaws.com/lum-faculty-jcwitt-public/lbp-recommendations-by-topic.gif" alt="TopicModellingSearchResults1" /></p>

<p>In der Zukunft planen wir beide Ansätze immer enger zusammenzubringen, so dass wir durch die Kombination von Eigenschaften, die von den Forschern erzeugt wurden, und jenen, die vom Computer erzeugt wurden, einen effektiven Empfehlungsdienst erschaffen können: einen Dienst, der uns erlaubt, die Verbindungen den ganzen Korpus hindurch in einer wissenschaftlichen und umfassenden Weise zu sehen.</p>]]></content><author><name></name></author><category term="scta" /><category term="deutsch" /><summary type="html"><![CDATA[Ein Bericht auf Experimenten mit der Anwendung von Top Modelling auf dem SCTA Korpus]]></summary></entry><entry><title type="html">Encountering the Text in the Information Age</title><link href="jeffreycwitt.com/2018/09/17/encountering-the-text/" rel="alternate" type="text/html" title="Encountering the Text in the Information Age" /><published>2018-09-17T00:00:00+00:00</published><updated>2018-09-17T00:00:00+00:00</updated><id>jeffreycwitt.com/2018/09/17/encountering-the-text</id><content type="html" xml:base="jeffreycwitt.com/2018/09/17/encountering-the-text/"><![CDATA[<p>Below is a list of readings I would like to use to structure our seminar.</p>

<p>Given the various time commitments we all have, I know that, despite best intentions, it is not always possible to do all the readings before a seminar. At the same time, our seminar will be infinitely more enriching if participants can devote some time to reading preparation.</p>

<p>In order to make it easier for everyone to do a least some reading, I have indicated readings that are considered <strong>focused</strong> readings and those that are <strong>recommended</strong> or <strong>highly recommended</strong>. Please prioritize <strong>focused</strong> readings over <strong>recommended</strong> readings.</p>

<p>Additionally, for <strong>focused</strong> readings, I’ve also try to indicate even smaller page ranges which constitute the core of what I would like to focus on during our time together. Obviously, the contents within these pages ranges will be more rewarding if one can read them in the context of the entire text. But if one is pressed for time, concentrating attention on these pages ranges will allow us to come together with some common understanding of the issues at play and will hopefully enable a rewarding discussion.</p>

<p>Each reading below has a file reference. During the course of the seminar, files corresponding to these references will be available <a href="https://drive.google.com/drive/folders/1cZlar7NtUIQlWvdu_yleNudahxjH6_XD?usp=sharing">here</a>. If possible, I recommend printing the <strong>focused</strong> readings out, so that during the seminar we can draw our attention toward each other and away from our screens.</p>

<h1 id="monday">Monday</h1>

<ol>
  <li>Marshal Mcluhan, “The Medium is the Message” in <em>Understanding Media</em>, pp. 7-21 <a href="https://drive.google.com/open?id=15w29PROI5FLfr0j1nnDRKAfaf_sR7-xh">file 01-01</a>
    <ul>
      <li><strong>Focused</strong>: p. 11, p. 18</li>
    </ul>
  </li>
  <li>Nicholas Carr, “Introduction” in <em>The Shallows</em>, pp. 1-4 <a href="https://drive.google.com/open?id=1eG0LGpOJ7113S5Z2j6Vt8RE0AJea75n2">file 01-02</a>
    <ul>
      <li><strong>Focused</strong>: all</li>
    </ul>
  </li>
  <li>Karl Marx, “[4. The Essence of the Materialist Conception of History.
Social Being and Social Consciousness]” in <em>German Ideology</em>, pdf pp. 1-2 <a href="https://drive.google.com/open?id=1K-Zvi0APWFl2riS7IwKDff9zwEumQMU2">file 01-04</a>
    <ul>
      <li><strong>Recommended</strong>: all</li>
    </ul>
  </li>
  <li>Karl Marx, “Ruling Ideas” in <em>German Ideology</em>, pdf pp. 1-3 <a href="https://drive.google.com/open?id=1gKMu0ssKw8C7k7CK1TM9BywKsb1CMTsx">file 01-05</a>
    <ul>
      <li><strong>Recommended</strong>: all</li>
    </ul>
  </li>
  <li>Plato, <em>The Phaedrus</em>, pdf pp. 1-36 <a href="https://drive.google.com/open?id=1shv7X75cF--_C5vqPN49k0TQcyqjFqgk">file 01-03</a>
    <ul>
      <li><strong>Focused</strong>: pp. 12-18 (speech in praise of the lover), pp. 28-30 (criteria of true rhetoric), pp. 32-36 (in defense of speech over the written word)</li>
    </ul>
  </li>
</ol>

<h1 id="tuesday">Tuesday</h1>

<ol>
  <li>Walter Ong, “Orality of Language”, <em>Orality and Literacy</em>, pp. 5-15 <a href="https://drive.google.com/open?id=1wQedq3gKNtkEC6Kvq6SzQa_EfiW2xSAN">file 02-01</a>
    <ul>
      <li><strong>Recommended</strong></li>
    </ul>
  </li>
  <li>Walter Ong, “Writing Restructures Consciousness”, <em>Orality and Literacy</em>, pp. 78-116 <a href="https://drive.google.com/open?id=1U56ohdoVmGXOiJ54Efi8siUH2ITprUw-">file 02-02</a>
    <ul>
      <li><strong>Focused</strong>: pp. 78-96, 101-103</li>
    </ul>
  </li>
  <li>Nicholas Carr, “Tools of the Mind (C. 3)”, <em>The Shallows</em>, pp. 39-57 <a href="https://drive.google.com/open?id=1onwAvHGm_Yc6KhQDo5q9aTkRPUzH-ca4">file 02-03</a>
    <ul>
      <li><strong>Recommended</strong></li>
    </ul>
  </li>
  <li>Walter Ong, “Print, Space, Closure” pp.117-138 <a href="https://drive.google.com/open?id=1m4CVRprx1IIqXwZCo2nl_E8tMiWD-Yy4">file 02-04</a>
    <ul>
      <li><strong>Focused</strong>: pp. 119-121</li>
    </ul>
  </li>
  <li>Nicholas Carr, “The Deepening Page(C. 4)”, <em>The Shallows</em>, pp. 58-77 <a href="https://drive.google.com/open?id=1db73sX0exDWgyj3hQtCcWYTzxVeiBLRH">file 02-05</a>
    <ul>
      <li><strong>Focused</strong>: pp. 61-63</li>
    </ul>
  </li>
  <li>Michelle Levy and Tom Mole, “Materiality”, in <em>The Broadview Introduction to Book History</em>, pp. 3-27 <a href="https://drive.google.com/open?id=1TPdtAn8VUVrDHAtHcYp4bEAkYtNE1-vr">file 02-06</a>
    <ul>
      <li><strong>Recommended</strong></li>
    </ul>
  </li>
</ol>

<h1 id="wednesday">Wednesday</h1>

<ol>
  <li>James Gleick, “Information Theory”, <em>The Information</em>, Chapter 7, pp. 204-232 <a href="https://drive.google.com/open?id=11O5NPPiBMxKX4lY60VZ5E4VpwLMhaAzG">file 03-01</a>
    <ul>
      <li><strong>Focused</strong>: pp. 221-232</li>
    </ul>
  </li>
  <li>Sriram Vajapeyam, “Understanding Shannons’s Entropy metric for Information”, pdf pp. 1-6 <a href="https://drive.google.com/open?id=1863InlNpdAPIenq9a_gkbqd7soRrWFpr">file 03-01a</a>
    <ul>
      <li><strong>Focused</strong>: all</li>
    </ul>
  </li>
  <li>Vannevar Bush, “As we may think”, <em>The Atlantic</em>, pdf pp. 1-21 <a href="https://drive.google.com/open?id=1gj-RPsr2ozdtjBsKx4etd6mBn-Ya-XmH">file 03-02</a>
    <ul>
      <li><strong>Focused</strong>: all</li>
    </ul>
  </li>
  <li>Ted Nelson, “Hyperworld” in Chapter 0, <em>Literary Machines</em>, pp. 0/1-13 <a href="https://drive.google.com/open?id=1QWabLriGyzV-ZY3SCuD6RP5dCAxgfnlo">file 03-03</a>
    <ul>
      <li><strong>Highly Recommended</strong></li>
    </ul>
  </li>
  <li>Ted Nelson, “Hypertext” in Chapter 1, <em>Literary Machines</em>, pp. 1/14-19 <a href="https://drive.google.com/open?id=1QWabLriGyzV-ZY3SCuD6RP5dCAxgfnlo">file 03-03</a>
    <ul>
      <li><strong>Focused</strong>: all</li>
    </ul>
  </li>
  <li>Ted Nelson, “2.1 An Electronic Literary System” in Chapter 2,  <em>Literary Machines</em>, pp. 2/4-8 <a href="https://drive.google.com/open?id=1QWabLriGyzV-ZY3SCuD6RP5dCAxgfnlo">file 03-03</a>
    <ul>
      <li><strong>Highly Recommended</strong></li>
    </ul>
  </li>
  <li>Ted Nelson, “2.2 What is Literature?” in Chapter 2, <em>Literary Machines</em>, pp. 2/9-12 <a href="https://drive.google.com/open?id=1QWabLriGyzV-ZY3SCuD6RP5dCAxgfnlo">file 03-03</a>
    <ul>
      <li><strong>Highly Recommended</strong></li>
    </ul>
  </li>
  <li>Roland Barthes, “The Death of the Author”, p. 142-148 <a href="https://drive.google.com/open?id=1RV3W0toGmJ6goLb7RWhypLrwxtKi6JWJ">file 03-04</a>
    <ul>
      <li><strong>Recommended</strong>: esp. 146-148</li>
    </ul>
  </li>
</ol>

<h1 id="thursday">Thursday</h1>

<ol>
  <li>Sahle, Patrick. “Zwischen Mediengebundenheit Und Transmedialisierung.” Editio 24 (2010): 23–36 <a href="https://drive.google.com/open?id=1_zvr0-NwPliRB1lltvgIuKvd4BwUjxpY">file 04-01</a>, Working/Rough Translation <a href="https://drive.google.com/open?id=1cRsl-dA1kmAvIwHikucrmMz4_GF2BEBB">file 04-01a</a>
    <ul>
      <li><strong>Focused</strong>: all</li>
    </ul>
  </li>
  <li>De Rose, et al. “What is a Text Really”, <em>Journal of Computing in Higher Education</em>, vol. 1 (2), 1990, pp. 3-26 <a href="https://drive.google.com/open?id=1F-KfS6HGuP7mPK7BlQ_9fxwPdmcIe1ut">file 04-02</a>
    <ul>
      <li><strong>Focused</strong>: pp. 1-6</li>
    </ul>
  </li>
  <li>“The concept of a work in World Cat: An application of Frbr”, pdf pp. 7-32 <a href="https://drive.google.com/open?id=1kguwUVYeA2AKa9VPtvned5lY1fToCnJk">file 04-03</a>
    <ul>
      <li><strong>Focused</strong>: pp. 3-8</li>
    </ul>
  </li>
  <li>Wikipedia, “Functional Requirements for Bibliographic Records” <a href="https://drive.google.com/open?id=1glTY0r2aUnxEOyqN6D5Y7jYaqtvDXjE5">file 04-04</a> or <a href="https://en.wikipedia.org/wiki/Functional_Requirements_for_Bibliographic_Records">https://en.wikipedia.org/wiki/Functional_Requirements_for_Bibliographic_Records</a>
    <ul>
      <li><strong>Focused</strong>: all</li>
    </ul>
  </li>
</ol>

<h1 id="friday">Friday</h1>

<ol>
  <li>Nicholas Carr, “The Very Image of a Book (C. 6)”, <em>The Shallows</em>, pp. 99-114 <a href="https://drive.google.com/open?id=1vKy3eAg4--cJDxMwo-YXLyJvbfO1wHUE">file 05-01</a>
    <ul>
      <li><strong>Focused</strong>: all</li>
    </ul>
  </li>
  <li>Nicholas Carr, “The Juggler’s Brain (C. 7)”, <em>The Shallows</em>, pp. 115-143 <a href="https://drive.google.com/open?id=1MDGGOfQO6wGe6qESVX2Z9uP5UjE9gXJL">file 05-02</a>
    <ul>
      <li><strong>Focused</strong>: all</li>
    </ul>
  </li>
  <li>Sven Birkerts, “Into the Electronic Millennium”, <em>Gutenberg Elegies</em>, pp. 117-133 <a href="https://drive.google.com/open?id=146FCBT-MV6gzLCQ11KH_Yg6yVTDJS5L2">file 05-03</a>
    <ul>
      <li><strong>Recommended</strong></li>
    </ul>
  </li>
  <li>Sven Birkerts, “Perseus Unbound”, <em>Gutenberg Elegies</em>, pp. 134-140 <a href="https://drive.google.com/open?id=146FCBT-MV6gzLCQ11KH_Yg6yVTDJS5L2">file 05-03</a>
    <ul>
      <li><strong>Recommended</strong></li>
    </ul>
  </li>
  <li>Sven Birkerts, “Hypertext: Of Mouse and Man”, <em>Gutenberg Elegies</em>, pp. 151-164 <a href="https://drive.google.com/open?id=146FCBT-MV6gzLCQ11KH_Yg6yVTDJS5L2">file 05-03</a>
    <ul>
      <li><strong>Recommended</strong></li>
    </ul>
  </li>
</ol>]]></content><author><name></name></author><category term="teaching" /><category term="digital-humanities" /><summary type="html"><![CDATA[A syllabus for 5 day course designed to reflect on the significance of the digital revolution and its impact our ways of thinking books, texts, and information. Originally designed for a week seminar at the University of Porto, November, 2018]]></summary></entry><entry><title type="html">Traveling Imprimatur Demonstration</title><link href="jeffreycwitt.com/2017/12/15/travelling-imprimatur-demo/" rel="alternate" type="text/html" title="Traveling Imprimatur Demonstration" /><published>2017-12-15T00:00:00+00:00</published><updated>2017-12-15T00:00:00+00:00</updated><id>jeffreycwitt.com/2017/12/15/travelling-imprimatur-demo</id><content type="html" xml:base="jeffreycwitt.com/2017/12/15/travelling-imprimatur-demo/"><![CDATA[<p>In this demo, I’d like to show some of the early realizations of a system of quality control and imprimatur that can travel with an edition, freeing it from the confines of a particular publisher or particular presentation. In an <a href="http://lombardpress.org/2016/05/19/the-traveling-imprimatur">earlier post</a>, I described an early conception of this idea as a “traveling imprimatur”, but of late I have had some requests for live demonstrations of how this might work in production rather than just in theory. So here I want to offer a few more thoughts about why this idea is important before offering a video demonstration of this idea working in production.</p>

<h1 id="preface">Preface</h1>

<p>As preface, I’d like to recall why the idea of a traveling imprimatur is important and how it challenges outdated paradigms that are still unnecessarily directing how we migrate our shared cultural heritage to the new digital medium.</p>

<p>In a great article by Joris van Zundert titled “barely beyond the book”, he introduces an idea called “paradigmatic regression”.</p>

<p>Van Zundert describes acts of “paradigmatic regression” as:</p>

<blockquote>
  <p>“acts of shaping that translate an expression of the paradigm of the new technology into an expression of a paradigm that is already known to the user.”</p>

  <blockquote>
    <p>(Joris van Zundert, “Barely Beyond the Book?” in <em>Digital Scholarly Editing: Theories and Practices</em>, eds. Matthew James Driscoll and Elena Pierazzo, (http://dx.doi.org/10.11647/OBP.0095.05), 83-106, 85)</p>
  </blockquote>
</blockquote>

<p>I start with this idea because today many acts of publishing an edition online embody an act of paradigmatic regression.</p>

<p>The concept we are familiar with from the print world is that an edition is a thing that is experienced in one place. To experience a particular edition is to experience the presentation of this edition as represented in a particular published physical book. The experience of this particular edition is therefore exhausted by the presentation found in this printed book because this edition can be experienced nowhere else.</p>

<p>Accordingly, the imprimatur of an edition is tied to a particular presentation of this text, and thus is tightly with coupled with the source or publisher of this presentation. If I want to view the edition that has been reviewed and carries the imprimatur of quality control, I can only view the text in the particular presentational form offered by a single publisher because, again, there is no other way for this edition to exist. The publisher who offers this presentation gains a monopoly over the “reviewed”, and therefore “authoritative” text, because the review is associated with this particular presentation rather than the data underlying this presentation.</p>

<p>Today, we see acts of paradigmatic regression in the creation of digital editions because this paradigm is being re-enacted in the digital medium despite the fact that it is no longer necessary.</p>

<p>That is, all too often, we tend to see the essence of our edition as something that is presented on a particular webpage. If I want to experience that edition, I am required to travel to a particular page or website in order to encounter that edition.</p>

<p>Consequently, the way we think about review, quality control, and the imprimatur for this text continues to follow the old paradigm. A text is considered reviewed when a review is given for this particular online presentation of the edition. Thereby, the party responsible for this presentation on this particular website gains an unnecessary and often unearned monopoly over the reviewed and authoritative version of the text and the uses that can be made of it.</p>

<p>Thus, if you want to see the reviewed text, one is needlessly forced to view that edition in one place and in one context only. Further uses and representations of this edition are prohibited precisely because the approval of the text is tied to a particular publication of this text rather than to the text itself. The authority and veracity of the imprimatur is once again tied to the source of the presentation, that is, the publisher or the website making the text visible, rather than to the data itself.</p>

<p>The big difference between the print enactment of this paradigm and the digital is that, in the latter case, the imprimatur is <strong>needlessly and unnecessarily</strong> tied to the publisher rather than the text. It is no longer the medium that requires us to do this, but our “paradigmatic regression” to an older model with which we are already familiar and comfortable.</p>

<p>The digital medium makes it possible for us to decouple the imprimatur of a particular edition from whoever is publishing the text or whatever website at a given moment is presenting that text. In this way, the reviewed text becomes free for anyone to publish and free for anyone to make new and innovative uses of without ever loses its identity as the reviewed and authoritative text.</p>

<h1 id="demonstration">Demonstration</h1>

<p>In the follow screen cast, I want to offer some demonstrations of this new paradigm in action and how this kind of “traveling imprimatur” can work in the real world. While still a work in progress, it is important to recognize that this is already operational and therefore technologically possible. Thus, the main obstacles to progress lie, not in technological problems, but rather in generating the social and political will to adopt a new paradigm.</p>

<iframe width="100%" height="315" src="https://www.youtube.com/embed/oNzciuTgjr8" frameborder="0" gesture="media" allow="encrypted-media" allowfullscreen=""></iframe>]]></content><author><name></name></author><category term="lombardpress" /><category term="scta" /><summary type="html"><![CDATA[A demonstration and proof of concept of the traveling imprimatur.]]></summary></entry><entry><title type="html">Politics and Society: The Patristic Legacy in the Middle Ages</title><link href="jeffreycwitt.com/2017/11/22/oxford-patristics-cfp/" rel="alternate" type="text/html" title="Politics and Society: The Patristic Legacy in the Middle Ages" /><published>2017-11-22T00:00:00+00:00</published><updated>2017-11-22T00:00:00+00:00</updated><id>jeffreycwitt.com/2017/11/22/oxford-patristics-cfp</id><content type="html" xml:base="jeffreycwitt.com/2017/11/22/oxford-patristics-cfp/"><![CDATA[<hr />

<h5 id="workshop-proposal-and-call-for-papers-for">Workshop Proposal and Call for Papers for:</h5>

<h4 id="xviiith-international-conference-on-patristics-studies">XVIIIth International Conference on Patristics Studies</h4>
<p>Oxford University
19 August-24 August 2019</p>

<hr />

<h3 id="politics-and-society-the-patristic-legacy-in-the-middle-ages">Politics and Society: The Patristic Legacy in the Middle Ages</h3>

<p>a workshop organized by John T. Slotemaker, Fairfield University and Jeffrey C. Witt, Loyola University Maryland</p>

<hr />

<p>The XVIIIth Oxford Patristics Conference (hereafter OPC) will take place in the Examination Schools on High Street, Oxford during August of 2019. The general call for papers has been issued (see: www.oxfordpatristics.com) and the deadline for both short communications and workshops is 31 August 2018. The present call for papers is to organize a workshop on <em>Politics and Society: The Patristic Legacy in the Middle Ages</em> within the <em>nachleben</em> (lit. ‘afterlife’) subdivision of the OPC.</p>

<p>The theme of this year’s workshop is <em>Politics and Society</em> broadly conceived. We invite proposals that examine how medieval thinkers used the Patristic inheritance to develop their own political and social worldviews. Papers might address questions such as: How Patristics authors shaped the way medieval thinkers theorized the proper relationship between church and state, or an individual to his or her family? How particular Patristic quotations were used or misused to support various medieval political or social agendas? How Patristic authors encouraged or prevented medieval multi-cultural or inter-religious interactions? How Patristic authors were used to shape law (civil or canon) and legal institutions? How Patristic authors were used to guide or direct various social practices such as baptism, marriage, or last rites?</p>

<p>The theme is meant broadly and we are eager to consider proposals from a wide variety of points of view, including historical, theological, philosophical, sociological, etc. We are likewise interested in expanding our horizons and expectations of where Patristic sources were used in the Middle Ages: to that end, we encourage papers that look beyond the scholasticism of the 13th century chronologically (looking at both the early middle ages and the later middle ages) and employ a variety of sources (i.e., looking at theological treatises, canon law, biblical commentaries, sermons, etc.).</p>

<p>If you wish to join this workshop please consider submitting a proposal to John Slotemaker or Jeff Witt (<a href="mailto:johnslotemaker@gmail.com">johnslotemaker@gmail.com</a>, <a href="mailto:jeffreycwitt@gmail.com">jeffreycwitt@gmail.com</a>). We will accepting proposals for this workshop up through 30 June 2018. The workshop will consist of 12 papers with each paper given 20 minutes with 10 minutes for discussion. At the conclusion of the workshop participants will be invited to submit their contributions as part of collected volume to be published with Studia Patristica.</p>

<p><em>Nota bene</em>: by accepting your proposal we will assume your participation in the workshop and your desire to publish the essay with <em>Studia Patristica</em>.</p>]]></content><author><name></name></author><category term="cfp" /><summary type="html"><![CDATA[A call for papers for a workshop on the Patristic Legacy in the Middle Ages.]]></summary></entry></feed>