Aufsatz zur Publikation auf der NAACL2024 angenommen

13.03.2024

Aufsatz zur Publikation auf der Conference of the North American Chapter of the Association for Computational Linguistics angenommen:

"You are an expert annotator": Automatic best–worst-scaling annotations for emotion intensity modeling.

Eine neue Publikation des Lehrstuhls wurde zur Veröffentlichung angenommen:

Christopher Bagdon, Prathamesh Karmalkar, Harsha Gurulingappa, and Roman Klinger. "You are an expert annotator": Automatic best–worst-scaling annotations for emotion intensity modeling. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Mexico City, Mexico, June 2024. Association for Computational Linguistics.

In diesem Papier bauen wir auf der Beobachtung auf, dass Menschen besser darin sind, Texte zu vergleichen, als sich für absolute Werte zu entscheiden. Ein Beispiel: Wenn ein Mensch gebeten wird, eine Bewertung der Emotionsintensität für den Text

Sie ist ziemlich glücklich.

zuzuweisen, werden verschiedene Personen wahrscheinlich unterschiedliche Bewertungen abgeben, die nicht wirklich miteinander in Verbindung stehen.

Wenn man Menschen bittet, zwei Texte zu vergleichen und zu entscheiden, welcher Text intensiver ist, ist das viel einfacher:

1. Sie ist sehr glücklich.
2. Er ist sehr erfreut.

Ein Beispiel für eine solche Vergleichsaufgabe ist das Best-Worst-Scaling (BWS), bei dem menschliche Annotator:innen gebeten werden, die intensivste und die am wenigsten intensive Instanz aus einer Reihe von Texten auszuwählen. Auf der Grundlage einer solchen BWS-Annotation kann man auch einen kontinuierlichen Wert ableiten, und solche Werte sind in der Regel viel zuverlässiger als die direkte Abfrage eines Wertes für eine isolierte Instanz.

In dem Papier, das wir auf der NAACL vorstellen werden, hat Christopher Bagdon untersucht, ob dieser Effekt auch dann gilt, wenn man ein großes Sprachmodell wie GPT3 mit der Annotation beauftragt. Wir haben festgestellt, dass dies tatsächlich der Fall ist. Die Botschaft, die wir mitnehmen können, lautet daher: Wenn Sie kontinuierliche Annotationen für Textinstanzen benötigen, fragen Sie besser ChatGPT (oder ähnliches) nach Vergleichen/BWS und nicht direkt nach Bewertungsskalen.

Der Preprint des Papiers ist unter folgendem Link verfügbar: https://www.romanklinger.de/publications/BagdonNAACL2024.pdf