XSEARCH . Linguistic

XSEARCH Linguistic ist die vollständige linguistische Plattform für morpho-syntaktische Analyse der häufigsten europäischen Sprachen und ist ein wichtiger Baustein für erfolgreiche Suche.

XSEARCH Linguistic bietet

  • Segmentierer und Tokenizer
  • Wortstammreduktion
  • Kompositazerlegung
  • Generieren von Flexionsformen
  • Part of Speech Tagging
  • Synonyme und Thesauri
  • Mehrwortbegriffe
  • Abkürzungen
  • neue / alte Rechtschreibung
  • Übersetzungsfunktion für cross-multilinguale Suche.

Das System bietet eine ganze Reihe von Vollformlexika kombiniert mit linguistischen Modulen und liefert aufgrund seiner Architektur ultra-schnelle Antwortzeiten.

XSEARCH Linguistik ist Basisgrundlage für die Verbesserung von Suchanwendungen oder für Knowledge Discovery Funktionen wie Schlüsselwortextraktion, Clustering, Klassifizierung oder Erzeugung von Feature Vektoren und optimiert auch die Suche mit der HitEngine.

XSEARCH Linguistik liegt ein nahezu vollständiges Vollformenlexikon zugrunde, das von anerkannten sprachwissenschaftlichen Experten über mehr als 20 Jahre entwickelt wurde und in vielen nationalen und europäischen Projekten mit großem Erfolg eingesetzt wird. Das Vollformenlexikon deckt neben wichtigen europäischen Sprachen nahezu den gesamten Bereich der deutschen Sprache ab:

  • Grundwortschatz von rund 1 Millionen Einträgen
  • zusätzlich rund 120.000 Synonymeinträge
  • zusätzlich rund 1 Millionen Komposita
  • Wortklasseninformationen Part of Speech
  • alte und neue Rechtschreibung
  • Umlautvariationen
  • Mehrwortbegriffe und Abkürzungen
  • Schweizer Variante für "ss" anstatt "ß"
  • Eigennamen, Länder- und Ortsbezeichnungen
  • Komposita Algorithmus.

Da Komposita nahezu beliebig gebildet werden können, verfügt die XSEARCH Linguistik zusätzlich über einen ausgeklügelten Algorithmus (Finite State Technologie), um unbekannte Komposita, die nicht im Lexikon vorhanden sind, korrekt zu zerlegen.  Das Vollformenlexikon wird ständig erweitert und bietet selbstverständlich die Möglichkeit, es um bel. eigene Lexika und Einträge zu ergänzen.

Die Linguistik ist für Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Portugiesisch und Spanisch verfügbar.

XSEARCH Linguistik Funktionen

Satz- und Wortsegmentierung (Tokenizer)

Die Zerlegung von Text in einzelne Worte und Begriffe steht ganz zu Beginn des Indexprozesses und ist wesentlich für die erfolgreiche Suche. Die Wortzerlegung von XSEARCH Linguistik ist auf die deutsche Sprache abgestimmt und berücksichtigt Punktation, Abkürzungen und Satzaufbau. Zusätzlich können alle diese Regeln manuell beeinflusst, ergänzt oder individualisiert werden, um optimale Ergebnisse zu erzielen.

Wortstammzerlegung und -erweiterungen / Kompositazerlegung

Zusammengesetzte Worte wie "Haushaltstücher" werden in die Begriffe "Haushalt" und "Tuch" zerlegt.

Lemmatisierung

Grundformreduktion und Expansion aller Flexionen wie

  •   "gehen, ging, gegangen"
  •   "groß, größer, am größten"
  • "Gang, Gänge".
Erweiterte Flexionen

Viele Begriffe werden abgekürzt oder mal mit und ohne Trennstrich geschrieben. Das erweiterte Flexionslexikon findet "zum Beispiel" aber auch "z. B.", "zB" oder "knowhow" und "Know-how".

Derivation

Zerlegung oder Erweiterung auf sinnhafte Begriffe: "Frei-heit" wird nicht zerlegt, da "heit" keine eigenständige lexikalische Bedeutung hat.

Umlautvarianten

Die Suche nach "Übel" findet auch "Uebel".

Neue Rechtschreibung

Die Suche nach "Delphin" findet auch "Delfin".

Synonyme

XSEARCH Linguistik stellt rund 120.000 Synonymeinträge zur Verfügung. So findet die Suche nach "Bank" auch "Bankhaus" oder "Geldinstitut". Auch Mehrwortbegriffe wie "Frankfurter Allgemeine Zeitung" und "F.A.Z." können abgebildet werden.

Wortklassifizierung (Part of Speech Tagging POS)

Aufgrund hinterlegter Wortklasseninformationen erkennt XSEARCH Linguistik, ob Worte Substantive, Adjektive, Verben, Adverbien, Ortsangaben oder feststehende Ausdrücke sind. Part of Speech Informationen sind Grundlage für Knowledge Discovery Funktionen wie Schlüsselwortextraktion, Klassifizierung oder Ähnlichkeitssuche.

Sprachen

XSEARCH Linguistic ist für folgende Sprachen erhältlich:

  • Deutsch
  • Dänisch
  • Englisch
  • Französisch
  • Griechisch
  • Italienisch
  • Niederländisch
  • Portugiesisch
  • Spanisch
Systemarchitektur

XSEARCH Linguistik steht als Server zur Verfügung, der einfach via TCP/IP angesprochen werden kann. Alternativ ist auch eine DLL bzw. shared Object einsetzbar. Bediente Plattformen sind Windows, Linux und SUN Solaris.