DH-Forschungskolloquium | Prof. Dr. Chris BiemannUniversität Hamburg | Informatik | Computerlinguistik

29. November 2017

Vortragstitel: Semantische Modelle für Semantische Annotation

| Zeit: 12:15 Uhr bis 13:45 Uhr | Ort: Institut für Volkskunde/Kulturanthropologie, ESA West, Raum 220

In diesem Vortrag wird das Spannungsfeld zwischen dem unüberwachtem Lernen von Sprachstruktur und der semantischen Annotation von Text hinsichtlich intellektuell erstellter Vorgaben beleuchtet und anhand der Annotationsarten Wortbedeutungsdisambiguierung, Entitäten-Linking, und Frame-Semantischem Parsen veranschaulicht.
Zum unüberwachten Induzieren semantischer Information wird das JoBimText-Framework vorgestellt, ein graphenbasiertes distributionelles semantisches Modell, welches Wortbedeutung anhand von Kontexten in großen Textkorpora repräsentiert. Im Gegensatz zu vektorbasierten, dimensionsreduzierten Ansätzen wie LSA oder word2vec bleibt die Repräsentation symbolisch und daher interpretierbar; die graphenbasierte Repräsentation ermöglicht die effiziente Induktion von Wortbedeutungsrepräsentationen und Konzeptualisierungen. Zur semantischen Annotation werden entsprechende Elemente des Online-Annotationswerkzeuges WebAnno dargestellt: zum einen komplexe Annotations-Constraints für komplexe Rahmen- und Rollenannotation, zum anderen die semi-automatische, selbstlernende Annotation semantischer Tags.Schließlich zeige ich, wie man die unüberwacht gelernten semantischen Modelle für überwacht gelernte semantische Annotation einsetzen kann und gebe einen Ausblick zu maschinellem Lernen mit dem „Human(ist) in the Loop“.
Short Bio:
Chris Biemann ist seit Oktober 2016 Professor (W2) für Sprachtechnologie (Language Technology, LT) am Fachbereich Informatik der Universität Hamburg, vormals leitete er eine Gruppe mit demselben Namen an der TU Darmstadt. Nach einem Diplom und einer Promotion an der Universität Leipzig bei Prof. Heyer arbeitete er 3 Jahre in der Suchmaschinenindustrie in San Francisco, Kalifornien.
In seiner Forschung beschäftigt er sich zum einen mit Grundlagen der lexikalischen Semantik, insbesondere mit unüberwachten, auf große Datenmengen skalierenden Verfahren, zum anderen mit der Adaptivität von Verfahren bzgl. Daten und Nutzern. Seine LT-Gruppe entwickelt regelmäßig Open Source Softwaretools, welche Forschungsergebnisse einem breiten Nutzerkreis zugänglich machen, und führt regelmäßig Shared-Task-Evaluationen durch, zuletzt für Aspekt-basierte Stimmungsanalyse auf Deutsch.