In einem Bericht auf Golem wird von einem neuen Such-Konzept eines Fraunhofer Institutes (Intelligente Analyse- und
Informationssysteme IAIS) gesprochen welches auf UIMA (Unstructured Information Management Architecture) von IBM basiert und später auch Natural Language Processing (NLP) ermöglichen soll.
Das auf Webseiten und Dokumente spezialisierte System soll ab Herbst über IBM erworben werden können.
Im Moment werden drei Smart-Semantic-Komponenten angeboten:
Site-Classifier
- maschinelle Klassifikation ganzer Dokumente wie Webseiten
- Projekt-, Mitarbeiter- oder Produktseiten automatisch als solche erkennbar – effizientere Suche nutzbar
- lernenden Verfahren
- keine Pflege von Stichwortlisten oder Heuristiken zur statischen Klassifikation notwendig
- geringer Wartungsaufwand
Named-Entity-Recognizer
- identifiziert benannte Entitäten (Personen, Organisationen und Orte)
- Filterung von Dokumenten nach bestimmten Entitäten
- Erkennung von Bedeutungsunterschieden gleichlautender Begriffe (“Vogel” als Tier und “Vogel” als Personenname)
- Berücksichtigung des inhaltlichen Kontext des Begriffs
Keyword-Extractor
- extrahiert statistisch signifikante Wörter aus Dokumenten
- Bereitstellung von Tagclouds und Wortvorschlägen bei Suchanfragen
Mehr Informationen bei Golem und dem Fraunhofer IAIS.