Linguistik Engine

XSEARCH Linguistik ist die vollständige linguistische Software für morpho-syntaktische Analyse des Deutschen und der wichtige Baustein für erfolgreiche Suche.

XSEARCH Linguistik Features

- Segmentierer und Tokenizer
- Wortstammreduktion
- Kompositazerlegung
- Generieren von Flexionsformen
- Part of Speech Tagging
- Synonyme und Thesauri
- Mehrwortbegriffe
- Abkürzungen
- neue / alte Rechtschreibung

Das System basiert auf Vollformlexika kombiniert mit linguistischen Modulen und liefert aufgrund seiner Architektur ultra-schnelle Antwortzeiten.

XSEARCH Linguistik ist Basisgrundlage für die Verbesserung von Suchanwendungen oder für Knowledge Discovery Funktionen wie Schlüsselwortextraktion, Clustering, Klassifizierung oder Erzeugung von Feature Vektoren und optimiert auch die Suche mit der HitEngine.

XSEARCH Linguistik liegt ein nahezu vollständiges Vollformenlexikon zugrunde, das von anerkannten sprachwissenschaftlichen Experten über mehr als 20 Jahre entwickelt wurde und in vielen nationalen und europäischen Projekten mit großem Erfolg eingesetzt wird. Das Vollformenlexikon deckt neben wichtigen europäischen Sprachen nahezu den gesamten Bereich der deutschen Sprache ab:

- Grundwortschatz von rund 2,8 Millionen Einträgen
- zusätzlich ca. 170.000 Synonymeinträge
- zusätzlich rund 1 Millionen Komposita
- Wortklasseninformationen Part of Speech
- alte und neue Rechtschreibung
- Umlautvariationen ca. 580.000
- Mehrwortbegriffe und Abkürzungen
- Eigennamen, Länder- und Ortsbezeichnungen, geografische Begriffe mit Ländercode

Komposita Algorithmus
Da Komposita nahezu beliebig gebildet werden können, verfügt die XSEARCH Linguistik zusätzlich über einen ausgeklügelten Algorithmus (Finite State Technologie), um unbekannte Komposita, die nicht im Lexikon vorhanden sind, korrekt zu zerlegen.

Die Linguistik ist für die wichtigsten Europäischen Sprachen verfügbar.

Satz- und Wortsegmentierung (Tokenizer)
Die Zerlegung von Text in einzelne Worte und Begriffe steht ganz zu Beginn des Indexprozesses und ist wesentlich für die erfolgreiche Suche. Die Wortzerlegung von XSEARCH Linguistik ist auf die deutsche Sprache abgestimmt und berücksichtigt Punktation, Abkürzungen und Satzaufbau. Zusätzlich können alle diese Regeln manuell beeinflusst, ergänzt oder individualisiert werden, um optimale Ergebnisse zu erzielen.

Wortstammzerlegung / Kompositazerlegung
Zusammengesetzte Worte wie "Haushaltstücher" werden in die Begriffe "Haushalt" und "Tuch" zerlegt.

Lemmatisierung
Grundformreduktion und Expansion aller Flexionen wie
"gehen, ging, gegangen"
"groß, größer, am größten"
"Gang, Gänge".

Erweiterte Flexionen
Viele Begriffe werden abgekürzt oder mal mit und ohne Trennstrich geschrieben. Das erweiterte Flexionslexikon findet "zum Beispiel" aber auch "z. B.", "zB" oder "knowhow" und "Know-how".

Derivation
Zerlegung oder Erweiterung auf sinnhafte Begriffe: "Frei-heit" wird nicht zerlegt, da "heit" keine eigenständige lexikalische Bedeutung hat.

Umlautvarianten
Die Suche nach "Übel" findet auch "Uebel".

Neue Rechtschreibung
Die Suche nach "Delphin" findet auch "Delfin".

Synonyme
XSEARCH Linguistik stellt rund 170.000 Synonymeinträge zur Verfügung. So findet die Suche nach "Bank" auch "Bankhaus" oder "Geldinstitut". Auch Mehrwortbegriffe wie "Frankfurter Allgemeine Zeitung" und "F.A.Z." können abgebildet werden.

Wortklassifizierung (Part of Speech Tagging POS)
Aufgrund hinterlegter Wortklasseninformationen erkennt XSEARCH Linguistik, ob Worte Substantive, Adjektive, Verben, Adverbien, Ortsangaben oder feststehende Ausdrücke sind. Part of Speech Informationen sind Grundlage für Knowledge Discovery Funktionen wie Schlüsselwortextraktion, Klassifizierung oder Ähnlichkeitssuche.

Systemarchitektur
XSEARCH Linguistik steht als Server zur Verfügung, der einfach via TCP/IP angesprochen werden kann. Alternativ ist auch eine DLL bzw. shared Object einsetzbar. Bediente Plattformen sind Windows, Linux und SUN Solaris.