Intelligent Classifier
Die Aufgabe: ständig zunehmende Informationsflut
Egal ob im Internet, in unternehmensinternen Intranets oder kommerziellen Informationsangeboten: das Wachstum an Web-Seiten nimmt immer weiter zu. Auch für Profis wird es immer schwieriger, genau das zu finden, was sie suchen. Wie kann also dieser Wust an Dokumenten in einen Wettbewerbsvorteil umgekehrt werden?

Die Lösung: Informationen intelligent klassifizieren
Dokumente müssen in Kategorien organisiert werden, in denen der Benutzer intuitiv navigieren kann. Die Produktivität steigt hiermit dramatisch, da der Nutzer seine Zeit für das Arbeiten mit Informationen verbringen kann, anstatt sie für das Suchen zu vergeuden.
Klassifizierungssysteme Systeme zur Klassifikation können prinzipiell in drei Kategorien unterteilt werden:
- manuell
- automatisch
- überwachte, selbstlernende Systeme.
manueller Ansatz
Rein manuelle Systeme erfordern, dass jedes Dokument redaktionell bearbeitet und bewertet wird. Sie bieten höchste Genauigkeit, verursachen aber auch mit Abstand die höchsten Kosten. Schätzungen gehen hier von $25 bis $100 pro Dokument aus.
Automaten
Um diese immense Kosten zu reduzieren, entwickelten sich automatische Klassifizierungssysteme, die auf statistischen Algorithmen wie z.B. Bayesian beruhen. Sie vergleichen einzelne Zeichen (Patternmatching) und deren Häufigkeit, sind aber nicht in der Lage, den eigentlichen linguistischen Sinn eines Wortes zu verstehen. Dies gilt noch mehr für die deutsche Sprache, die über zahlreiche Komposita und Unregelmässigkeiten verfügt, und zu den schwierigsten linguistischen Sprachen überhaupt zählt. Die Ergebnisse solcher automatischen Klassifizierungsversuche können zur Zeit nicht überzeugen und sind zudem oft kaum zu beeinflussen.
Überwachte, selbstlernende Systeme
Sie unterscheiden sich zu reinen Automatismen dadurch, dass sie menschlichen Input benötigen um zu lernen, wie sie Informationen klassifizieren sollen. Einmal trainiert bieten diese Systeme die mit Abstand beste Balance aus Genauigkeit und Aufwand.
Intelligent Classifier: Balance zwischen Algorithmen und menschlicher Expertise
Intelligent Classifier kombiniert die Effizienz der Computertechnik mit menschlicher Intelligenz. Er bietet automatische und manuelle Klassifizierung und erlaubt jederzeit das optimale Fine-tuning zwischen beiden Welten. Kategorien können automatisch oder manuell erstellt werden und deren Regeln vom System oder manuell optimiert werden.
Intelligent Classifier kann die Kategorisierung von Informationen nach folgenden drei fundamentalen Aspekten vornehmen:
Selbstlernende, automatische Klassifikation
Positive und negative Beispiel-Dokumente können dazu benutzt werden, automatisch die Regeln zu generieren, die die Kategorien definieren.
Manuelle Klassifikation
Taxonomien und deren Regeln können mit Hilfe des Intelligent Classifiers auch manuell erstellt und gemanagt werden.
Geschäftsregeln, die prozessorientiertes Fachwissen formalisieren, können aber auch dazu genutzt werden, die per LRC automatisch generierten Kategorien und Regeln zu verbessern und/oder zu modifizieren, um die Präzision zu steigern oder unterschiedliche Unternehmensziele zu erreichen.
Thematic Mapping
»Thematic Mapping« kann dazu genutzt werden, die gesamten Dokumente im Volltext zu analysieren und so Schlagworte oder spezifische Begriffe herauszufinden. So können ganze Taxonomien generiert oder das Wissen der Redakteure nach neuen Erkenntnissen durchforscht werden.

