Sisältöön
Informaatiotutkimuksen ja interaktiivisen median laitos

Stemmattu indeksi

Jos hakemisto on stemmattu eli karsittu, pitää hakutermienkin olla stemmattuja. Jos jokin hakujärjestelmä käyttää stemmausta indeksin rakentamiseen, se todennäköisesti myös automaattisesti soveltaa samaa stemmeriä käyttäjän antamien hakutermien stemmaukseen.

alue
aluearkkitehd
aluearkkiteht
alueasiamie
alueasiamieh
alueasiamies
alueavustuks
alueavustus
aluebarometr
...
Stemmeri (engl. stemmer) poistaa pääteainekset (lähinnä suffiksit) hakusanoista ja indeksitermeistä, jolloin ne ovat yhdenmukaisia (niillä on sama "vartalo").

Tunnetuin on Porterin stemmer, jota käytetään yleisesti (Porter, 1980 ). Stemmerin toiminta perustuu suffiksilistaan ja sääntöihin.

Esimerkki: houses: house
translating: translat (mahdollisesti kehittynyt stemmeri voi lisätä +e ---> translate)

Sanoista poistetaan ohjelmallisesti liitteet, päätteet, tunnukset ja joskus johtimetkin. Lopputuloksena ei välttämättä ole mikään oikea sana, vaan yhteinen kanta. Tämä kanta viedään tekstitietokannan indeksiin.

Stemmauksen edut ovat samoja kuin perusmuotoistamisen. Vaikka on kehittetty monimutkaisempiakin stemmereitä kuin Porterin, niin ne eivät ole olleet kuitenkaan oleellisesti parempia (esimerkiksi Krovetz 1993).

Alistemmaus, ylistemmaus, väärinstemmaus

Alistemmaus (under-stemming) tarkoittaa sitä, että stemmeri poistaa liian vähän sanasta, esimerkiksi poistetaan vain kirjain s sanasta babies. Ylistemmauksessa tehdään päinvastoin eli poistetaan liikaa, esimerkiksi stemmataan sana probably muotoon prob.

Väärinstemmaus tarkoittaa sitä, että stemmeri erehtyy luulemaan sanan loppua liitteeksi, vaikkei se olekaan sellainen. Esimerkiksi päätteen ly poistaminen englannin kielen sanasta on yleensä oikein (cheaply), mutta sitä ei pidä poistaa sanasta reply. (Porter 1980).

Stemmauksen ongelmia

Stemmerin käytön perusongelma on, että sanoilla, joilla on aivan eri merkitys saattaa olla stemmauksen jäljiltä sama kanta, jolloin monitulkintaisuus lisääntyy stemmauksen myötä. Toisaalta vahvasti taipuville kielille kuten suomelle on vaikea tehdä hyvää stemmeriä: saman sanan eri muodot saattavat saada eri stemmin, kuten alussa olevasta indeksiesimerkistä näkyy (alueasiamie, alueasiamieh, alueasiamies). 

Esimerkki

Porterin stemmeri tulkitsee samalla tavalla lauseet:

  1. Conflict over foreign policy
  2. A conflict between foreigners and the police

koska sille foreign ja foreigner ovat molemmat stemmattuina indeksissä muodossa foreign, samoin policy ja police palautuvat muotoon polic.

Stemmerin tarjoamasta yksinkertaisesta menetelmästä on siis sekä etua että haittaa.


Postiosoite: 33014 Tampereen yliopisto, Käyntiosoite: Kanslerinrinne 1, Pinni A, 4.-5. krs, puh. (03) 3551 6970 tai 3551 6034
Ylläpito: infim@uta.fi
Muutettu: 2.9.2009 11.45 Muokkaa
Tampereen yliopisto