Springe direkt zu Inhalt

FAQs zum Einsatz von Identific

'Antiplagiatssoftware' (im Folgenden kurz APS, richtiger wäre Software zur Erkennung von Textübereinstimmungen) kann Lehrende dabei unterstützen, mögliche Übereinstimmungen mit anderen Texten zu erkennen. Dabei sind einige Aspekte zu beachten.

Nachstehhend haben wir einige wissenswerte Fakten rund um den Einsatz von APS zusammengestellt, die Sie bei der Nutzung der Software unterstützen sollen. Da einige Sachverhalte mehr Hintergrundinformationen benötigen, haben wir das klassische FAQ-Schema ein wenig abgeändert: Wenn Sie ein Frage ausklappen, finden Sie in der grauen Box zunächst eine Kurzantwort. Der anschließende Text gibt weiterführende Informationen, Erläuterungen und Einordnungen.

Falls Sie weitere Fragen haben, die wir an dieser Stelle aufnehmen sollen, schreiben Sie uns diese gerne an plagiat@ub.fu-berlin.de

Armin Glatzmeier

[Stand: 13.02.2025]

Textplagiate weisen zwei Dimensionen auf: (1) Eine nachweisbare Ähnlichkeit zu einem anderen Text, der (1.a.) das Plagiat vordatiert, (1.b.) einer anderen Person zugeordnet werden kann und (1.c.) auf dessen Nutzung als Quelle nicht (hinreichend) hingewiesen wird. (2) Eine Täuschungsabsicht.  

Eine allgemeinverbindliche Definition des Begriffs ‚Plagiat‘ gibt es weder in den Wissenschaften, noch als Legaldefinition in der Deutschen Gesetzgebung (Geiger, jM 2015, S. 2). Aus rechtlicher Perspektive wurde der Plagiatsbegriff indes in der ständigen Rechtsprechung als Aneignung fremden geistigen Eigentums mit einhergehender Autorschaftsanmaßung konturiert:

"[Die Würdigung des Begriffs als "'Diebstahl' eines geistigen oder künstlerischen Werkes"] entspricht der Lebenserfahrung, nach der man mit dem Begriff des Plagiats die Vorstellung von einem geistigen Diebstahl verbindet, bei dem fremdes Geistesgut als eigenes ausgegeben wird ...." (BGH, Urteil vom 12. Januar 1960 – I ZR 30/58 –, Rn. 39, juris)

Auch in der Wissenschaft erfuhr der Begriff im Zuge der Normierung und Implementation von Regeln zur guten wissenschaftlichen Praxis eine klarer Eingrenzung. So erwähnt der DFG-Kodex das Plagiat in den Erläuterungen zur Leitlinie 19 und definiert es im zugehörigen Kommentar als "[u]ngerechtfertigtes Zueigenmachen fremder wissenschaftlicher Leistungen durch ... die ungekennzeichnete Übernahme von Inhalten Dritter ohne die gebotene Quellenangabe ('Plagiat')". In der Satzung zur Sicherung der guten wissenschaftlichen Praxis der Freien Universität Berlin, wird das Plagiat in § 14 Abs. 3 als eine Form des wissenschaftlichen Fehlverhaltens aufgeführt und als unzulässige Aneignung fremder wissenschaftlicher Leistungen durch die ungekennzeichnete Übernahme von Inhalten Dritter ohne die gebotene Quellenangabe beschrieben.

Eine recht umfassende Definition geht auf Teddi Fishman zurück, die bereits 2009 vorschlug, von Plagiarismus dann zu sprechen, wenn

  1. Worte, Ideen oder Arbeitsergebnisse (auch physischer Natur) genutzt werden,
  2. die einer anderen, identifizierbaren Person oder Quelle zugeordnet werden können,
  3. ohne dass (ausreichend) auf die Ursprungsquelle verwiesen wird,
  4. und die konkrete Nutzungssituation den legitimen Schluss zulässt, dass es sich um einen (eigenen) Beitrag bzw. ein eigenes Werk handelt,
  5. mit dem Ziel, dadurch einen Vorteil oder (auch immateriellen) Gewinn zu erlangen. (Fishman 2009, S. 5)

Dieser Vorschlag hat gegenüber den eingangs genannten Definitionsansätzen, den Vorteil, dass er bereits recht konkret die Gegenstände (1) benennt, auf die Zuordbarkeit der übernommenen Gegenstände abstellt – und zwar unabhängig davon, ob diese (noch) urheberrechtlich geschützt sind, so dass auch gemeinfreie oder gekaufte Texte (Ghostwriting) erfasst werden (2).

Zentral ist auch hier, dass die eigentliche Quelle (ausreichend) kenntlich gemacht wird (3) und – dieser Punkt ist dann für die Bewertung von Plagiaten relevant – bei den Rezipient*innen der Eindruck entsteht, es handle sich um einen eigenen Beitrag (4). Dieser Aspekt der Täuschung, der sich dann auch in dem damit verbundenen Ziel (5) verwirklichen soll, wird in der Rechtsprechung mit Konzepten 'Vorsatz' und 'Eventualvorsatz' verknüpft. Die Täuschung wird also gezielt als Folge des Plagiats als 'Taterfolg' gewollt oder zumindest als möglicher Taterfolg in Kauf genommen.

Fishman, Teddi. 2009. “We know it when we see it” is not good enough: toward a standard definition of plagiarism that transcends theft, fraud, and copyright. Educational Integrity: Creating an Inclusive Approach. Proceedings of the 4th Asia Pacific Conference on Educational Integrity (4APCEI), 28-30 September 2009, University of Wollongong, NSW, Australia, https://ro.uow.edu.au/apcei/09/papers/37/

Gärditz, Klaus Ferdinand. 2013. Die Feststellung von Wissenschaftsplagiaten im Verwaltungsverfahren Hochschulrechtliche Probleme und wissenschaftspolitischer Handlungsbedarf. Wissenschaftsrecht 46 (1), S. 3-36. https://www.doi.org/10.1628/094802113X668471

Hagenström, Felix. 2022. Plagiate. In Wissenschaftliche Fairness, hrsg. von Katrin Frisch, Felix Hagenström und Nele Reeg, S. 83-138. Bielefeld: transcript. https://doi.org/10.14361/9783839459669-005

In der Praxis lassen sich verschiedene Formen von Textplagiaten unterscheiden, die z.T. auch bei der Einordnung der Funde in der Gesamtbewertung einer schriftlichen Prüfungsleistung helfen können. Im folgenden wird eine Unterscheidung vorgeschlagen, die sich auf den sehr anwendungsbezogenen Ansatz von Vroniplag-Wiki einerseits und die insbesondere seit dem Fall Guttenberg konsolidierte Rechtsprechung andererseits stützt. Bezüglich des gelegentlich noch gebräuchlichen Sonderfalls "Selbstplagiat" wird ausgehend von der – seitens der DFG nun ebenfalls verwendeten – Bezeichnung "Textrecycling" eine Entkopplung vom Plagiatssachverhalt empfohlen, die auch der Realität kumulativer Abschlussarbeiten gerecht wird. 

  1. Komplettplagiat / Vollplagiat
  2. Strukturplagiat
  3. Verschleierung
  4. Bauernopfer
  5. Übersetzungsplagiat
  6. Sonderfall: Textrecycling („Selbstplagiat“)


Vgl. https://vroniplag.fandom.com/de/wiki/VroniPlag_Wiki:Grundlagen/Plagiatskategorien

'Antiplagiatssoftware' (APS) erkennt keine Plagiate, sondern liefert lediglich Hinweise auf potentiell mit fremden Texten übereinstimmende Textpassagen.

Technisch betrachtet vergleicht sogenannte Antiplagiatssoftware (APS) Texte lediglich auf Übereinstimmungen mit anderen Texten. Dies beinhaltet Textpassagen, die (a) im Wortlaut oder (b) paraphrasiert aus anderen Texten übernommen wurden.

Die Erkennungsleistung solcher Programme hängt wesentlich vom Datenbestand ab, der zum Textvergleich herangezogen werden kann. Hersteller von APS unterhalten daher Kooperationen mit Anbietern wissenschaftlicher Publikationen (Verlage, Journals, Repositorien usw.) und bauen eigene Datenbanken mit Inhalten auf, die im Internet frei zugänglich sind. Bei der Identifikation potentieller Plagiate zeigen sich deutlich Unterschiede hinsichtlich der Erkennbarkeit verschiedener Plagiatsformen, die von der Art und Weise abhängen, wie Informationen aus Werken Dritter übernommen werden: So werden wörtliche Textübernahmen wesentlich besser erkannt als Paraphrasen. Die Erkennbarkeit von Paraphrasen verschlechtert sich mit zunehmendem Überarbeitungsgrad. Übersetzungsplagiate, Bildplagiate oder die Übernahme von mathematischen, chemischen und anderen Formeln werden nicht erkannt. Potentielle Plagiate aus Quellen, die nicht in der Datenbank des Anbieters erschlossen sind (etwa weil sie nicht in digitaler Form vorliegen) lassen sich mit einer APS nicht erkennen. Aufgrund des immer auch selektiven Zuschnitts der Vergleichsdatenbank weisen APS zudem ein Sprachen- und Fächer-Bias auf.

Hinzukommt, dass bei einer softwareseitigen Prüfung natürlich auch Textübereinstimmungen erkannt werden, die z.B. auf korrekt gekennzeichnete Zitate, stehende Wendungen, Fachterminologie, Einträge im Quellenverzeichnis usw. zurückzuführen sind. Entsprechend erbringt der durch die Software erstellte Prüfbericht nicht bereits den Beleg dafür, dass es sich bei einer erkannten Textübereinstimmung tatsächlich um ein Plagiat handelt, vielmehr muss jede der erkannten Textstellen im Einzelnen überprüft und bewertet werden.

Der Einsatz einer APS gewährleistet also keine vollständige Aufklärung und bietet daher nur bedingten Schutz vor Plagiaten. Konkret bedeutet dies, dass ‚gut gemachte‘ Plagiate bei der Prüfung unerkannt bleiben können.

Aktuell und absehbar gibt es keine valide softwareseitige Erkennungsmöglichkeit für KI-generierte Texte

Alle sogenannten Erkennungsalgorithmen, die KI-Erkennung versprechen, sind unzuverlässig und sie werden das sehr wahrscheinlich auch bleiben, daher kann die Bewertung einer Arbeit nicht auf einen solchen Befund gestützt werden.

Belastbar ist indes ein Nachweis KI-generierter Inhalte auf der Grundlage von harten Indikatoren auf der Textebene (etwa erfundene Quellenangaben und eindeutige Textartefakte).

Bei Verwendung von Retrieval-Augmented-Systemen (RAGs), bei denen ein Sprachmodell mit einem Informationsabruf aus dem Internet oder einer Datenbank kombiniert wird, kommt es durch die Übernahme wörtlicher Textpassagen aus den gefundenen Quellen gelegentlich zu klassischen Plagiaten, die bei der Plagiatsprüfung auffallen können.

Zum Hintergrund

"The observed results suggest that existing state-of-the-art LLM-generated text detectors are suboptimal, at the very least, for the task of detecting LLM-assisted writing in scientific communication." (Lazebnik und Rosenfeld, 2024, S. 4)

Die Ungenauigkeit vermeintlicher Erkennungstools ist hinlänglich bekannt:

Kurz nach der Veröffentlichung von ChatGPT stellte OpenAI, der Hersteller des Modells, einen AI classifier vor, der nach einer sechsmonatigen Laufzeit allerdings wieder vom Netz genommen wurde. Der Erkennungsalgorithmus stufte lediglich 26% KI-generierter Texte zuverlässig als solche. Die Quote der Falschpositive - also von Menschen geschrieben Texte, die fälschlicherweise als KI-generiert eingeordnet wurden - lag bei 9%.

Die Unzuverlässigkeit der Erkennungstools folgt systematisch aus der Funktionsweise von Großen Sprachmodellen (LLMs):

LLMs generieren wahrscheinliche Wortfolgen (next word prediction). Die meisten Modelle lassen eine 'Kalibrierung' durch die Nutzenden zu, sodass auch weniger wahrscheinliche Satzergänzungen gewählt werden können (wodurch auch die Wahrscheinlichkeit von Halluzinationen erhöht wird).

Für Erkennungsalgorithmen gibt es zwei mögliche technische Ansätze:

  1. Sie setzen auf der Meta-Eben an und versuchen Voraussagen über die Wahrscheinlichkeit zu treffen, mit der ein LLM eine bestimmte Wortfolge gewählt hätte - dies würde aber die Kenntnis des jeweiligen Algorithmus erfordern. Die Episode mit dem AI classifier von OpenAI zeigt, dass dies nicht einmal den Herstellern selbst verlässlich gelingt.
  2. Sie greifen auf stilometrische Texteigenschaften zurück, bewerten also, ob in einem Text bestimmte Wörter oder Wendungen verwendet werden, die für genKI-Texte typisch sind, Satzlänge und ähnliche Textmerkmale. Auch diese Analyse ist nicht verlässlich: So kann die relativ häufigere Verwendung bestimmter Begriffe in der Wissenschaftssprache zwar mit dem Training von Sprachmodellen in Verbindung gebracht werden, sie ist aber kein harter Nachweis für eine (unzulässige) Nutzung.

Die Probleme beider Ansätze treten bei der Wissenschaftssprache, die wesentlich stärker formalisiert ist und auf stehende Begriffe zurückgreift, deutlicher zutage als bei Alltagstexten.

  1. Daraus, dass die Möglichkeiten sinnvoller Wortkombinationen in wissenschaftlichen Texten begrenzter sind als in anderen Textgattungen, folgt zwangsläufig, dass ein next-word-prediction-basierter Ansatz hier häufig falschpositive Ergebnisse liefert.
  2. Auf stilometrischer Ebene lassen sich in hochformalisierten und -standardisierten Texten wenig griffige Aussagen über signifikante Differenzen zwischen menschlichen und KI-generierten Texten treffen.

Weiterführende Quellen:

siehe z.B.

[2403.19148] GenAI Detection Tools, Adversarial Techniques and Implications for Inclusivity in Higher Education

[2306.15666] Testing of Detection Tools for AI-Generated Text

Dateien und Prüfberichte müssen nach Abschluss der Prüfung gelöscht werden.

Jede Speicherung eines in digitaler Form vorliegenden und urheberrechtlich geschützten Textes stellt einen Eingriff in das Urheberrecht dar. Deshalb ist auch der Upload auf den Prüfserver des Dienstanbieters einer APS urheberrechtlich relevant.  Das Einverständnis des zur Erstellung einer Kopie kann entweder explizit durch eine ausdrückliche Einwilligung oder konkludent - also durch schlüssiges Handeln - erfolgen. Im Prüfungskontext, in dem die Erklärung der Eigenständigkeit der erbrachten Leistung eine zentrale Rolle spielt und die Prüfung auf einen fachlich korrekten Umgang mit den verwendeten Quellen ein fester Bestandteil des Begutachtungsprozesses ist, kann zunächst eine konkludente Zustimmung zu einer Überprüfung auf Plagiate angenommen werden, da andernfalls der Prüfungszweck nicht erfüllt werden kann. Dass hierzu auch eine APS als Hilfstechnologie zur Erkennung möglicher problematischer Textabschnitte herangezogen werden kann, wurde in einem Fall vor dem Verwaltungsgerichtshof Baden-Württemberg nicht beanstandet (VGH BW 9 S 327/14, Abs. 14).

Grundsätzlich gilt, dass schriftliche Werke, zu denen auch eigenständig erstellte schriftliche Prüfungsleistungen zählen, dem Urheberrecht unterliege. Entsprechend liegt das Recht, Vervielfältigungen eines geschützten Werkes zu erstellen, ausschließlich bei der Person, die das Urheberrecht innehat (§ 15 Abs. 1 Nr. 1 i.V.m. § 16 UrhG). Dies gilt gem. § 10 Abs. 1 UrhG qua Autorschaftsvermutung grundsätzlich auch für vollständig plagiierte Texte, da bis zum Beweis des Gegenteils von einer Urheberschaft derjenigen Person ausgegangen werden muss, die auf dem Werk angegeben ist. Kopien einer Hausarbeit, einer Qualifikationsschrift usw. dürfen somit nicht ohne eine entsprechende Rechtsgrundlage erstellt werden.

Die zum Zweck der Begutachtung erstellte Kopie muss nach Abschluss des Begutachtungsverfahrens wieder gelöscht werden, sofern keine Einwilligung für eine längerfristige oder dauerhafte Speicherung vorliegt. Da der Prüfbericht in der Regel auch eine vollständige Kopie des geprüften Textes enthält, müssen auch diese nach Abschluss des Prüfverfahrens gelöscht werden. Zudem sind Vorkehrungen zu treffen, die eine (kommerzielle) Nutzung der hochgeladenen Texte durch den Dienstanbieter ausschließen. Dies betrifft beispielsweise den Aufbau einer Datenbank mit den geprüften Texten zum späteren Abgleich mit anderen Arbeiten. Bei der an der Freien Universität bereitgestellten Software werden die zur Prüfung hochgeladenen Texte nach 14 Tagen automatisch aus dem System gelöscht. Eine Kommerzielle Nutzung durch den Dienstanbieter ist vertraglich explizit ausgeschlossen.

Aus datenschutzrechtlicher Perspektive sind beim Einsatz einer APS drei Ebenen relevant.

  1. Da die meisten APS als cloudbasierte Anwendungen auf dem Server des Dienstanbieters (oder einem dazu angemieteten Server) betrieben werden, ist eine Anmeldung erforderlich, bei der personenbezogene Daten der nutzenden Person sowie eindeutige Daten des Rechners, mit dem der Zugriff erfolgt, übertragen werden. Dies ist bei Diensten, die den Anforderungen der DSGVO entsprechen, in der Regel unproblematisch, wenn die Nutzung des Dienstes freiwillig oder auf einer klaren dienstrechtlichen Grundlage erfolgt. Bei der Nutzung des an der Freien Universität Berlin eingesetzten Services werden nur wenige personenbezogene Daten übermittelt (Name, dienstliche Mailadresse und Rollenattribute, die eine Zuordnung zu einer der nutzungsberechtigten Statusgruppen ermöglichen). Die bei der Nutzung anfallenden Daten, die Rückschlüsse auf das Gerät, mit dem die Nutzung erfolgt, sowie andere gerätespezifische Eigenschaften (IP, Browser u.ä.) erlauben, werden in einem Session-Cookie serverseitig gespeichert und nach Ablauf der Sitzung gelöscht. 
  2. Auch die zu prüfende Datei selbst - also der Text, der auf mögliche Übereinstimmungen hin geprüft werden soll - ist ein datenschutzrechtlich relevantes Datum, sodass sichergestellt sein muss, dass die zur Prüfung gestellten Arbeiten vor dem Zugriff unbefugter Dritter geschützt sind. Ein entsprechendes Sicherheitskonzept liegt für die an der Freien Universität Berlin bereitgestellte Software vor.
  3. Personenbezogene Daten, die im Text der zu prüfenden Datei oder in deren Metadaten enthalten sind, sind bezogen auf eine unbefugte Nutzung durch Dritte bereits durch die vorstehend genannte Maßnahme gesichert. Mit Blick auf die softwareseitige Prüfung des Textes auf mögliche Übereinstimmungen mit anderen Texten, ist festzuhalten, dass Namens-, Adress- oder anderweitige enthaltene Daten nicht als Namens-, Adressdaten usw. ausgelesen und durch die Software verarbeitet werden. Abweichend stellte die Datenschutzbeauftragte des Landes NRW in einem Fall aus dem Berichtsjahr 2023 (vgl. S. 50ff.) fest, dass die zu prüfenden Dateien vor dem Upload auf den Server eines APS-Anbieters pseudonymisiert werden müssen.
Der Plagiatsnachweis bedarf einer Gesamtbewertung der zu prüfenden Arbeit, die (1) den Nachweis erbringt, dass Textpassagen aus anderen Werken wörtlich oder sinngemäß übernommen wurden, ohne dass diese Übernahme ausreichend gekennzeichnet wurde, sowie (2) vorsätzlich oder mit Eventualvorsatz über die Autorschaft dieser Textpassagen getäuscht werden sollte.

Grundsätzlich kann eine Prüfungsleistung aufgrund von Plagiaten als "nicht bestanden" bewertet werden, auch wenn das zur Folge hat. In BVerwG 6 B 66.17 führt das Gericht dazu aus (s. dort, Abs. 13):

Die Sanktionierung von Täuschungsversuchen stellt sicher, dass das Ziel der Prüfung, bestimmte Kenntnisse und Fähigkeiten nachzuweisen, erreicht wird. Zugleich verlangt das Gebot der Chancengleichheit nach Art. 3 Abs. 1 i.V.m. Art. 12 Abs. 1 GG die Sanktionierung. Danach kann nicht zweifelhaft sein, dass nur eine eigenständige Prüfungsleistung geeignet sein kann, den Prüfungszweck zu erfüllen. Durch eine Leistung, die maßgebend auf Plagiatsstellen, d.h. fremden Textpassagen beruht, kann der Nachweis nicht erbracht werden, die für das Bestehen der Prüfung erforderlichen Kenntnisse und Fähigkeiten zu besitzen. Die Sanktionierung einer derartigen Prüfungsleistung als nicht bestanden ist angemessen, d.h. verhältnismäßig im engeren Sinne. Eine mildere Sanktion scheidet aus, weil eine nicht mehr als eigenständig anzusehende Prüfungsleistung den Prüfungszweck vollständig verfehlt (stRspr, vgl. BVerwG, Urteil vom 21. März 2012 - 6 C 19.11 - Buchholz 421.0 Prüfungswesen Nr. 412 Rn. 22 f. m.w.N.; zum Grundsatz der Chancengleichheit im Prüfungsverfahren in Studiengängen der Bundeswehr s. auch BVerwG, Urteil vom 24. April 1991 - 7 C 24.90 - Buchholz 421.0 Prüfungswesen Nr. 288).

Dabei ist zu beachten, dass die Prüfungsentscheidung verfahrensfehlerfrei zustande kommt. BVerwG 7 C 57.83 stellt hierzu klar, dass Prüfende zunächst die Prüfungsleistung "ermitteln und zur Kenntnis nehmen" müssen und "[m]aterielle Fehler beim Entscheidungsvorgang [ ... ] die Rechtswidrigkeit des Entscheidungsergebnisses zur Folge" haben. Da die Prüfberichte einer APS lediglich Hinweise auf mögliche problematische Textpassagen geben, lässt sich ein Plagiatsvorwurf somit nicht allein auf den Prüfbericht stützen. Vielmehr müssen die einzelnen Verdachtsstellen geprüft und bewertet werden. Dabei gilt nach ständiger Rechtsprechung, dass für das Nichtbestehen aufgrund von Plagiaten wesentliche Teile der Arbeit in "quantitativer und qualitativer Hinsicht" betroffen sein müssen (VG Bremen 6 V 1056/12, Abs. 49, vgl. dazu auch BVerwG 6 C 3.16, Abs. 44 sowie VG Berlin 12 K 156/20, Abs. 34).