• XSEARCH Linguistik

    XSEARCH Linguistik

          Sprachen analysieren, reduzieren, normalisieren.


            Preprozessor für Suche, Semantik und Klassifikation.

XSEARCH . Linguistik

XSEARCH Linguistik ist die vollständige linguistische Software für morpho-syntaktische Analyse des Deutschen und der wichtige Baustein für erfolgreiche Suche.

XSEARCH Linguistik bietet

  • Segmentierer und Tokenizer
  • Wortstammreduktion
  • Kompositazerlegung
  • Generieren von Flexionsformen
  • Part of Speech Tagging
  • Synonyme und Thesauri
  • Mehrwortbegriffe
  • Abkürzungen
  • neue / alte Rechtschreibung
  • Übersetzungsfunktion für cross-multilinguale Suche.

Das System basiert auf Vollformlexika kombiniert mit linguistischen Modulen und liefert aufgrund seiner Architektur ultra-schnelle Antwortzeiten.

XSEARCH Linguistik ist Basisgrundlage für die Verbesserung von Suchanwendungen oder für Knowledge Discovery Funktionen wie Schlüsselwortextraktion, Clustering, Klassifizierung oder Erzeugung von Feature Vektoren und optimiert auch die Suche mit der HitEngine.

XSEARCH Linguistik liegt ein nahezu vollständiges Vollformenlexikon zugrunde, das von anerkannten sprachwissenschaftlichen Experten über mehr als 20 Jahre entwickelt wurde und in vielen nationalen und europäischen Projekten mit großem Erfolg eingesetzt wird. Das Vollformenlexikon deckt neben wichtigen europäischen Sprachen nahezu den gesamten Bereich der deutschen Sprache ab:

  • Grundwortschatz von rund 2,8 Millionen Einträgen
  • zusätzlich ca. 170.000 Synonymeinträge
  • zusätzlich rund 1 Millionen Komposita
  • Wortklasseninformationen Part of Speech
  • alte und neue Rechtschreibung
  • Umlautvariationen ca. 580.000
  • Mehrwortbegriffe und Abkürzungen
  • Schweizer Variante für "ss" anstatt "ß"
  • Eigennamen, Länder- und Ortsbezeichnungen, geografische Begriffe mit Ländercode
  • Komposita Algorithmus.

Da Komposita nahezu beliebig gebildet werden können, verfügt die XSEARCH Linguistik zusätzlich über einen ausgeklügelten Algorithmus (Finite State Technologie), um unbekannte Komposita, die nicht im Lexikon vorhanden sind, korrekt zu zerlegen.  Das Vollformenlexikon wird ständig erweitert und bietet selbstverständlich die Möglichkeit, es um beliebig eigene Lexika und Einträge zu ergänzen.

Die Linguistik ist für Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Portugiesisch und Spanisch verfügbar.

XSEARCH Linguistik Funktionen

Satz- und Wortsegmentierung (Tokenizer)

Die Zerlegung von Text in einzelne Worte und Begriffe steht ganz zu Beginn des Indexprozesses und ist wesentlich für die erfolgreiche Suche. Die Wortzerlegung von XSEARCH Linguistik ist auf die deutsche Sprache abgestimmt und berücksichtigt Punktation, Abkürzungen und Satzaufbau. Zusätzlich können alle diese Regeln manuell beeinflusst, ergänzt oder individualisiert werden, um optimale Ergebnisse zu erzielen.

Wortstammzerlegung und -erweiterungen / Kompositazerlegung

Zusammengesetzte Worte wie "Haushaltstücher" werden in die Begriffe "Haushalt" und "Tuch" zerlegt.

Lemmatisierung

Grundformreduktion und Expansion aller Flexionen wie

  •   "gehen, ging, gegangen"
  •   "groß, größer, am größten"
  • "Gang, Gänge".

Erweiterte Flexionen

Viele Begriffe werden abgekürzt oder mal mit und ohne Trennstrich geschrieben. Das erweiterte Flexionslexikon findet "zum Beispiel" aber auch "z. B.", "zB" oder "knowhow" und "Know-how".

Derivation

Zerlegung oder Erweiterung auf sinnhafte Begriffe: "Frei-heit" wird nicht zerlegt, da "heit" keine eigenständige lexikalische Bedeutung hat.

Umlautvarianten

Die Suche nach "Übel" findet auch "Uebel".

Neue Rechtschreibung

Die Suche nach "Delphin" findet auch "Delfin".

Synonyme

XSEARCH Linguistik stellt rund 170.000 Synonymeinträge zur Verfügung. So findet die Suche nach "Bank" auch "Bankhaus" oder "Geldinstitut". Auch Mehrwortbegriffe wie "Frankfurter Allgemeine Zeitung" und "F.A.Z." können abgebildet werden.

Wortklassifizierung (Part of Speech Tagging POS)

Aufgrund hinterlegter Wortklasseninformationen erkennt XSEARCH Linguistik, ob Worte Substantive, Adjektive, Verben, Adverbien, Ortsangaben oder feststehende Ausdrücke sind. Part of Speech Informationen sind Grundlage für Knowledge Discovery Funktionen wie Schlüsselwortextraktion, Klassifizierung oder Ähnlichkeitssuche.

Sprachen

XSEARCH Linguistik ist für folgende Sprachen erhältlich:

  • Deutsch
  • Dänisch
  • Englisch
  • Französisch
  • Griechisch
  • Italienisch
  • Niederländisch
  • Portugiesisch
  • Spanisch

Systemarchitektur

XSEARCH Linguistik steht als Server zur Verfügung, der einfach via TCP/IP angesprochen werden kann. Alternativ ist auch eine DLL bzw. shared Object einsetzbar. Bediente Plattformen sind Windows, Linux und SUN Solaris.

E-Mail info(at)weitkamper.de
Phone +49 8841 488240

Copyright © 1994 - 2017 Weitkämper Technology GmbH. XSEARCH® und HitEngine® sind eingetragene Marken der Europäischen Union und in der gesamten EU geschützt. PubEngine® ist eine beim Deutschen Patent- und Markenamt eingetragene Marke der Weitkämper Technology GmbH.