5.1 Setiment Analysis ist eine spezielle Anwendung von Methoden der NLP zur Erfassung von Meinungen, Bewertungen und Polaritäten in (großen) Textkorpora über die "Bestimmung der semantischen Orientierung von Wörtern, Phrasen und Texten" (Klenner 2009)
-- ------- Technische Probleme und Herausforderungen:
a: Objektidentifikation: Ein typischer Lösungsweg ist ein domänspezifisches Lexikon, das alle relevanten Begriffe eines Themenbereichs listet.
b. Merkmalsextraktion und Synonymgruppen: Zu diesem Zweck werden in Webtexten nach Nomen und nominalen Phrasen gesucht.
c, Explikationsgrad: Bewertungen können explizit oder implizit formuliert sein (Liu 2010, Zhang 1995). Das größte Problem ist, dass die Polarität des Satzes bei impliziten Äußerungen meist nicht bestimmt werden kann, da die verwendete Worte in einem Satz keine eindeutige Polarität aufweisen. Die Polarität des Satzes ist nur mit Kontextwissen identifizierbar. Die automatische Identifikation und Analyse von Bewertungen wird in Sätzen mit expliziter Bewertung bzw. mit eindeutigen Polaritätswörtern erleichtert.
d. Polarität: Die Identifikation der Polarität ist schwierig, kann durch domän-bzw. themenspezifische Polaritätsbegrifflisten verbessert werden. Ein weiteres Problem ist die Disambiguierung von Begriffen: billig kann sowohl positiv als auch negativ konnotiert sein. Lösungen können sein: die manuelle Disambiguierung; das Anlegen umfangreicher lexikalischer Datenbank mit Synsets; Ein drittes Problem betrifft die Rekonstruktion der Polarität in vergleichenden Sätzen, weil sie meist keine Polaritätsausdrücke enthalten, häufig muss anhand des Kontextes entschieden werden, ob eine Bewertung eher positiv oder negativ gemeint ist.
---------- Lösungsansätze: Ressourcen, Ansätze, Verfahren:
a. Ressourcen: Verfahren und Ansätze der Sentiment Analysis greifen bei der Verarbeitung von Textdaten auf unterschiedliche Ressourcen zurück. Dies sind in der Regel lexikalische Datenbanken, domänspezifische Wörterbücher und Trainingskorpora.
Lexikalische Datenbanken: Für die Analyse deutscher Texte wurden die Datenbanken SentiWordNet und SentiWS entwickelt. SentiWordNet ist die erste lexikalische Datenbank und eine Weiterentwicklung der englischsprachigen Datenbank WordNet. Sie enthalten Synsets für die Wortarten Nomen, Adjektiv, Verb und Adverb mit den Polaritäten positiv, negativ oder objektiv. In der Korpusanalyse werden satzweise die enthaltenen Nomen, Verben, Adverben und Adjektive ins Englische übersetzt und hinsichtlich ihres Polaritätsgrades bestimmt. Der Durchschnitt aller Polaritätsgrade ergibt die Satzpolarität. (Problem: Die Performanz des Klassifikationsalgorithmus sei relativ gering; die Güte der Übersetzung sei fraglich); SentiWS ist eine deutschsprachige lexikalische Datenbank, die 1650 als genativ bewertend und 1818 als positiv bewertende POS-getaggte Wörter umfassen. Jedes Wort ist hinsichtlich seines Polaritätsgrades mit einem numerischen Wert zwischen -1 und 1 versehen. Die SentiWS befindet sich noch in der Entwicklungsphase. Momentan ist SentiWS die einzige deutsche lexikalische Datenbank für Sentiment Analysis.
b. Empirie-Probleme: Methoden der Text Mining bieten Lösungsansätze für die semi-automatische Analyse sprachlichen Bewertens. Die Analysemethoden variieren im Granularitätsgrad und der Analysetiefe. Je nach Annotationsebene können Verarbeitungsprobleme auftreten. Als ebenenübergreifendes Problem gilt die Ambiguität. Analysemethoden des Text Mining werden bereits für die Untersuchung sprachlichen Bewertens genutzt. Es muss geprüft werden, inwiefern existierende Ansätze für die Analyse sprachlichen Bewertens in Kommentaren genutzt werden können und wie der theoretisch-methodische Ansätze mit Methoden der Computerlinguistik und der Sentiment Analysis verknüpft werden kann.
--- Quelle: Bewerten im Blogkommentaren.