Prosjektbeskrivelse (stemint)

1. Innledning

For ti år siden spådde det kjente analyseselskapet Gartner at språkteknologi skulle bli stort. Til tross for at språkteknologien ennå ikke har tatt helt av, har analyseselskapet fortsatt stor tro på denne teknologien. I årets Blestsirkel antar Gartner igjen at taleteknologien står foran lyse utsikter.

Optimismen var også stor, da Nordisk Språkteknologi (NST) ble etablert på Voss i 1999.  Storsatsingen ble imidlertid en fiasko, og i 2003 gikk selskapet konkurs. Da hadde det blitt investert om lag 200 millioner kroner i selskapet og på det meste var over hundre personer ansatt i NST. I kjølevannet av konkursen oppsto det et vakuum i satsingen på norsk taleteknologi, og som en følge av dette har fremdriften i utviklingsarbeidet vært svært liten.

Selv om det store gjennomslaget for taleteknologi fortsatt lar vente på seg, ser vi imidlertid på linje med analyseselskapet Gartner at taleteknologien nå er på full fremmarsj. Utviklingen har tatt lengre tid enn først antatt, men vi tror fortsatt at taleteknologi skal bli stort. Som en FOU-bedrift på området IT og funksjonshemmede ser vi dessuten et særlig stort potensiale for taleteknologien innenfor vår målgruppe. Videre mottar vi stadig henvendelser fra funksjonshemmede vedrørende statusen på området norskspråklige løsninger for stemmestyring, der vi også blir oppfordret av funksjonshemmede til å ta tak i dette fagfeltet. Dette er også noe av bakgrunnen for at vi nå ønsker å starte et forprosjekt på dette området.

Med taleteknologi mener vi maskinell bearbeiding av tale. Med andre ord at datamaskinen kan snakke og forstå tale, dvs et talebasert brukergrensesnitt.  Taleteknologi kan deles inn i:

1.      Kunstig tale eller talesyntese, (”konvertering av tekst til tale”)

2.      Automatisk talegjenkjenning, (”konvertering av tale til tekst eller handling”).

3.      Talte dialogsystem (“koverserende datamaskiner”)

4.      Talergjenkjenning/verifisering (“biometriske systemer”)

I dette prosjektet vil vi legge mest vekt på automatisk talegjenkjenning, men vi vil også berøre syntetisk tale og dialogsystem.  I denne søknaden bruker vi begrepet stemmestyring om automatisk talegjenkjenning.


 

2. Mål

Forprosjektets hovedmål er:

Kartlegge og utrede muligheten for et utviklingsprosjekt som forenkler interaksjonen mellom menneske og maskin ved hjelp av stemmestyring, og legge grunnlaget for et slikt utviklingsprosjekt, dersom dette er teknologisk og økonomisk hensiktsmessig og mulig.

Dette hovedmålet kan deles inn i følgende delmål:

1.      Kartlegge statusen når det gjelder stemmestyring nasjonalt og internasjonalt

2.      Kartlegge målgruppens behov for stemmestyring generelt, og prioriterte oppgaver  spesielt, dvs hvilke oppgaver som bør prioriteres i interaksjonen mellom menneske og maskin.

3.      Kartlegge statusen når det gjelder arbeidet med å få til en norsk språkbank, og videreføre dette arbeidet.

4.      Bygge opp et forskningssamarbeid med aktuelle forskningsmiljøer

5.      Legge grunnlaget for et hovedprosjekt, dersom dette er teknologisk og økonomisk hensiktsmessig og mulig.

 

2.1 Målgruppe

Prosjektets hovedmålgruppe er funksjonshemmede generelt og bevegelseshemmede, dyslektikere og synshemmede spesielt. Med bevegelseshemmede mener vi her bevegelseshemmede som har problemer med å bruke vanlig tastatur, f. eks personer med Parkinson, mennesker som er lam fra nakken og ned osv. I behovsanalysen som skal gjennomføres vil fokusgruppene derfor bestå av personer fra disse tre gruppene av funksjonshemmede (jfr: 3.2 Kartlegge målgruppens behov for stemmestyring, side 4).

Samtidig vil vi understreke at stemmestyring har et langt bredere nedslagsfelt enn funksjonshemmede. Stemmestyring er blant annet i dag en funksjon som finnes i de engelske programvareversjonene av MS Office. Av denne grunn vil vi presisere at vi ser et betydelig markedspotensiale i stemmestyring rettet mot det generelle markedet, men at vi i første omgang finner det hensiktsmessig å begrense prosjektets målgruppe til funksjonshemmede. Dette har sammenheng med at vi oppfatter behovene som størst i denne målgruppen og at det med bakgrunn i vår fagkompetanse er fornuftig å fokusere på denne målgruppen. Tidligere erfaring viser imidlertid at løsninger utviklet spesielt med tanke på funksjonshemmede også kan møte et behov i det generelle markedet, og på sikt tror vi derfor på at gode norskspråklige løsninger for stemmestyring vil ha et betydelig markedspotensiale utover målgruppen funksjonshemmede.


 

3. Prosjektaktiviteter

3.1 Kartlegge statusen

Kartleggingen av statusen når det gjelder stemmestyring nasjonalt og internasjonalt vil bli basert på det kartleggingsarbeidet som allerede er gjennomført på området. Utgangspunktet vil være Knut Kvales statusrapport: Status for norsk taleteknologi – februar 2005. Kvale skal på oppdrag fra IT Funk i sommer oppdatere denne statusrapporten. Denne oppdateringen vil bli sett i sammenheng med dette prosjektet, og oppdateringen vil komme dette prosjektet direkte til gode.

 

3.2 Kartlegge målgruppens behov for stemmestyring

Dette prosjektet bygger på en hypotese om at stemmestyring vil forenkle interaksjon mellom menneske og maskin, og at denne forenklingen spesielt vil komme prosjektets målgruppe til gode. På denne bakgrunn vil dette prosjektets hovedaktivitet være å kartlegge målgruppens behov for stemmestyring generelt og prioriterte oppgaver spesielt.

Under planlegging og drifting av automatisk talegjenkjenning er det viktig å ta hensyn til at tjenesten aldri vil bli feilfri, fordi feilkildene er så mange. Presisjonen på den automatiske talegjenkjenningen vil imidlertid variere med hvilken plattform for automatisk talegjenkjenning man velger å bruke. Vi skiller mellom tre hovedformer:

1.      Talegjenkjenning i PC-anvendelser

2.      Talegjenkjenning i telefontjenester

3.      Talegjenkjenning i innvevde system

Et typisk bruksområde for talegjenkjenning i PC-anvendelser kan være diktering av brev. Et diktert brev innenfor et definert fagområde med faguttrykk vil redusere feilprosenten, mens et mer dagligdags brev med bruk av dialekt og slang vil redusere presisjonen. Utfordringene er langt mindre, dersom det er snakk om å få maskinen til å utføre bestemte handlinger ved hjelp av forhåndsdefinerte talekommandoer, som f. eks å endre farge på en tekst, fordi det her kun er bestemte ord/talekommandoer som må kjennes igjen.

Talegjenkjenning i forbindelse med telefontjenester kan ha stor presisjon dersom ordforrådet er lite og dialogen er systemstyrt. I en situasjon med mye bakgrunnsstøy og dårlig linjekvalitet er det en forutsetning at dialogen mellom menneske og maskin er så presis som mulig, hvis dialogen skal fungere. Vanligvis legges det derfor opp til at man kun skal svare med ett eller to ord, for å minimalisere feilkildene.

Talegjenkjenning i innvevde systemer vil si at taleteknologien er en integrert del av f. eks en mobiltelefon, en set up-boks og lignende. Taleteknologien er komprimert ned i størrelse, slik at den kan integreres i en liten minnebrikke eller en liten boks.

I dette forprosjektet vil vi ha en spesiell fokus på taleteknologi i forbindelse med PC-anvendelser.  Dette har sammenheng med at i forhold til det norske markedet er dette et området med mange uløste oppgaver og samtidig også der brukerbehovene er størst. Men vi vil også se på de to andre anvendelsene; telefonitjenester og innevevde systemer.

Med bakgrunn i de avgrensningene som er foretatt over, vil kartleggingen konsentrere seg om målgruppens behov for stemmestyring generelt og stemmestyring i forbindelse med PC-anvendelser spesielt.

Behovsanalysen vil bli gjennomført ved hjelp av intervjuer i fokusgrupper. Hovedmålgruppen er bevegelseshemmede, dyslektikere og synshemmede, og tolv fokusgrupper med tre personer i hver fokusgruppe vil bli etablert (fire grupper med bevegelseshemmede deltakere, fire grupper med dyslektikere og fire grupper med synshemmede). Fokusgruppene vil være homogene, fordi vi ønsker å se om behov og prioriterte oppgaver i vesentlig grad varierer blant synshemmede, dyslektikere og bevegelseshemmede. Fokusgruppene vil bli inndelt på følgende måte. 

1.      Under 60 år med god IT-kunnskap

2.      Over 60 år med god IT-kunnskap

3.      Under 60 år med dårlig IT-kunnskap

4.      Over 60 år med dårlig IT-kunnskap

Fokusgruppene vil bli plukket ut i samarbeid med dysleksiforbundet i Norge, Norges Blindeforbund og Norges Handikapforbund, som alle er med i prosjektgruppen til dette prosjektet. I forbindelse med intervjuene av fokusgruppene vil tre personer delta: En som leder intervjuene, en som tar referat og en som tar videoopptak av intervjuene. Et intervjuskjema vil bli utarbeidet i forkant av intervjuene.

Intervjuene i fokusgruppene vil starte med at deltakerne gis en kort teoretisk innføring i stemmestyring. Intervjuene vil bli gjennomført med hovedvekt på å få til et samspill og en dialog internt i fokusgruppene, og spørsmålene vil således ha en forholdsvis åpen og vid tilnærming til problemfeltet. Detaljene i gjennomføringen av intervjuene i fokusgruppene og i selve behovsanalysen vil bli utarbeidet i forbindelse med detaljplanleggingen av prosjektet.

Kartleggingen av behov for stemmestyring generelt og prioriterte oppgaver spesielt vil bli sett i sammenheng med den statusen som gjøres opp når det gjelder stemmestyring nasjonalt og internasjonalt, og vil danne grunnlaget for hva som blir definert som hovedsatsingsområder i et hovedprosjekt.

 

3.3 Norsk språkbank

Behovet for en norsk språkbank har tydelig blitt dokumentert i rapporten: Samling og tilgjengeleg­gjering av norske språkteknologiressursar  (http://www.sprakrad.no/upload/1308/sprakbankrapport-2002.pdf). Til tross for de klare  anbefalingene har regjeringen imidlertid ennå ikke bevilget penger til oppbyggingen av en norsk språkbank. I forhold til andre språk bremser dette utviklingen av avanserte nårskspråklige taleteknologiske løsninger.

I 2003 gikk Nordisk språkteknologi (NST) på Voss konkurs. NST samlet inn mye språkmateriale som utgjør et viktig fundament i oppbyggingen av en norsk språkbank. I dette forprosjektet vil vi forsøke å gjøre opp status med hensyn til hvor arbeidet med en norsk språkbank i dag står, samt identifisere de kritiske faktorene når det gjelder hvilken rolle et eventuelt hovedprosjekt skal spille i forbindelse med realiseringen av en norsk språkbank.

 

3.4 Samarbeid med sentrale forskningsmiljøer

I forprosjektet blir det viktig å identifisere de sentrale forskningsmiljøene i Norge på dette området. Dernest å etablere et samarbeid med disse miljøene med tanke på å jobbe sammen om å videreutvikle den norske taleteknologien. Norsk er et lite språk, samtidig som  dette er et kapitalkrevende og faglig krevende fagfelt, der det er helt avgjørende at de norske kreftene står sammen om å få til gode norske løsninger. Videre vil det være viktig å høste lærdommer av hva som gikk feil i Nordisk Språkteknologis storsatsing på taleteknologi. Disse erfaringene vil bli tatt med inn i oppbyggingen av et hovedprosjekt.

IBM samarbeidet med Nordisk Språkteknologi, men rettighetene til det som ble utviklet eies nå av konkursboet, som administreres av Voss kommune. Sentralt i samarbeidet mellom IBM og Nordisk Språkteknologi var tidligere IBM-ansatt geir Nøkleby. Nøklebye kjenner fagfeltet godt og har fortsatt mange viktige kontakter innen det internasjonale IBM-konsernet, som har lagt ned mye ressurser i forhold til fagområdet funksjonshemmede og stemmestyring. Sentral i dette arbeidet er tyskeren Sigfrid Kunsmann, som er lederen for dette arbeidet i Europa. I forprosjektet ønsker vi ved hjelp av Geir Nøklebye å innlede et samarbeid med IBM Europa, noe som vil kunne ha stor betydning både for finansiering og gjennomføring av et hovedprosjekt. Nøklebye er med i prosjektgruppen (jfr. 4. Prosjektorganisering),

En som også kjenner fagfeltet og arbeidet som ble utført i Nordisk Språkteknologi godt, er Peter Erik Pettersen. Pettersen var tidligere ansatt i Nordisk Språkteknologi, men jobber nå med fagområdet stemmestyring i Max Manus. De siste årene har Max Manus etablert seg på feltet stemmestyring i Norge, og har levert flere løsninger til helsesektoren. Max Manus har et samarbeid med Philips rundt utviklingen og leveringen av de norske løsningene. Gjennom Pettersen og Max Manus er kontakten sikret inn mot Philips, noe som kan vise seg å bli veldig verdifullt i oppbyggingen av et hovedprosjekt. Pettersen er med i prosjektgruppen (jfr. 4. Prosjektorganisering).

I perioden 2001 – 2006 har Norges Forskningsråd gjennomført forskningsprogrammet KUNSTI. Den aktiviteten som er finansiert gjennom forskningsprogrammet vil være et av startstedene for arbeidet med å bygge opp samarbeidet.
 

3.5 Hovedprosjekt

Forprosjektets hovedmål er å Kartlegge og utrede muligheten for et utviklingsprosjekt som forenkler interaksjonen mellom menneske og maskin ved hjelp av stemmestyring, og legge grunnlaget for et slikt utviklingsprosjekt, dersom dette er teknologisk og økonomisk hensiktsmessig og mulig. Den foreløpige kartleggingen tyder på at behovet er stort, og allerede tidlig i forprosjektperioden vil vi derfor sondere mulighetene for å få på plass et hovedprosjekt.

Mot slutten av forprosjektperioden når behov og prioriterte oppgaver er kartlagt, vil hensiktsmessigheten av et hovedprosjekt bli vurdert. I et eventuelt arbeid med å få på plass et hovedprosjekt vil følgende hovedaktiviteter inngå: 

              I.      Definere innholdet i hovedprosjektet.

           II.      Etablere en hensiktsmessig organisering av prosjektet.

         III.      Finne tilstrekkelig finansiering.

        IV.      Utarbeide prosjektbeskrivelse og søknad.

En nøkkelfaktor for både å lykkes med å reise finansiering til et hovedprosjekt og ikke minst for å få til et bærekraftig arbeid på sikt, vil være å få inn aktører i samarbeidet som oppfatter fagområdet som komersielt interessant. De første skrittene i dette arbeidet er allerede tatt ved at aktører som Telenor, Max manus, Philips og IBM er tiltenkt en rolle i arbeidet med forprosjektet (jfr. 3.4 Samarbeid med sentrale forskningsmiljøer). I forprosjektperioden vil vi bygge videre på samarbeidet med disse aktørene med tanke på å kartlegge hvilke komersielle interesser de har på dette fagområdet, og på hvilken måte disse kommersielle interessene vil kunne bidra i et hovedprosjekt og i arbeidet med å få til en bærekraftig norsk taleteknologi. I forkant av et eventuelt hovedprosjekt vil også mediaLT arbeide med å definere sin langsiktige rolle innenfor dette fagfeltet. Videre vil det også bli gjort et kartleggingsarbeid med hensyn til hvilke andre kommersielle interesser som finnes på fagfeltet, og i etterkant av dette kartleggingsarbeidet vil dissse interessene blir kontaktet med spørsmål om de kunne tenke seg å ha en rolle i forhold til å få etablert et langsiktig, bærekraftig arbeid på området.
 

3.6 Formidlingstiltak

I arbeidet med å få knyttet til seg kommersielle interessenter, få etablert et hensiktsmessig forskningssamarbeid og få bygget opp og reist nødvendig finansiering til et hovedprosjekt, vil aktive formidlingstiltak ha en vesentlig betydning. MediaLT har i flere tidligere prosjekter lykkes med å få oppslag i riksdekkende medier, og vi har stor tro på at vi også i dette prosjektet vil kunne få riksdekkende oppslag. Dette er i alle fall noe vi vil jobbe aktivt for å få til. Videre har vi kontaktpersoner innenfor interesseorganisasjonenes medlemsblader, og disse informasjonskanalene vil vi bruke for å nå ut med målrettet informasjon til brukerne. Når resultatene fra forprosjektet foreligger, vil vi også arbeide for å få publisert artikler i aktuelle fagblader og tidsskrifter. Dessuten vil medlemmene i prosjektgruppen informere om forprosjektet på aktuelle seminarer og konferanser.

I september planlegger vi dessuten å sette opp og organisere et seminar om temaet. I tillegg til en mer åpen invitasjon vil vi arbeide målørettet mot de miljøene vi synes at det er viktig deltar på dette seminaret, dvs at vi vil kontakte dem direkte med oppfordring om å delta på seminaret. Hensikten med dette seminaret vil være å ffå på banen alle de aktørene som oppfattes vesentlige for å få til et langsiktig arbeid innenfor dette fagfeltet i Norge. Ved siden av at de foreløpige rresultatene fra forprosjektet vil bli lagt fram på seminaret, vil også seminaret bli brukt til å knytte kontakter og etablere samarbeid.


 

4. Prosjektorganisering

I sammensetningen av prosjektgruppen er det lagt vekt på å samle de miljøene i Norge som er vesentlige for gjennomføringen av prosjektet. Det har vært ansett som viktig å sikre kompetanse og innflytelse på følgende felt:

·        Ledelse av brukerstyrte prosjekter

·        FOU

·        Brukererfaring/brukerkompetanse

·        Kompetanse om taleteknologi

·        Kommersielle interesser på fagfeltet

MediaLT ønsker å påta seg oppgaven med å lede prosjektet, samt hovedansvaret med å gjennomføre prosjektet. Videre ønsker vi å knytte en referansegruppe til prosjektet. Like etter prosjektoppstart vil aktuelle miljøer bli kontaktet med tanke på deltakelse i en slik referansegruppe. Aktuelle miljøer er deltasenteret, Standard Norge, Språkrådet m. fl. Denne referansegruppen vil spesielt være viktig i forhold til forskningssamarbeidet som skal bygges opp i prosjektet (jf. 3.4 Samarbeid med sentrale forskningsmiljøer, side 6).

 

Navn

 

Organisasjon

 

Arbeidsområde

 

Magne Lunde

MediaLT

Prosjektledelse, behovsanalyse, fokusgrupper, forskningssamarbeid, hovedprosjekt, formidlingstiltak

Morten Tollefsen

(prosjektleder)

MediaLT

Prosjektledelse, brukergrensesnitt, behovsanalyse, teknisk kompetanse, Norsk språkbank, forskningssamarbeid

Are Flyen

MediaLT

Brukergrensesnitt, teknisk kompetanse

Aage Auby

Norges Blindeforbund

Behovsanalyse, fokusgrupper

Ann Kristin Fossneset

Norges Handikapforbund

Behovsanalyse, fokusgrupper

Laila Johnson

Dysleksiforbundet

Behovsanalyse, fokusgrupper

Peter Erik Pettersen

Max Manus

Kartlegging av status, Norsk språkbank, forskningssamarbeid, hovedprosjekt

Geir Nøklebye

Tidligere IBM-ansatt

Kartlegging av status, Norsk språkbank, forskningssamarbeid, hovedprosjekt

Torbjørn Svendsen

NTNU

Kartlegging av status, Norsk språkbank, forskningssamarbeid, hovedprosjekt

Knut Kvale

Telenor

Kartlegging av status, fokusgrupper, Norsk språkbank, forskningssamarbeid, hovedprosjekt


 

5. Framdriftsplan

Framdriftsplanen nedenfor er skissert med antall medgåtte månedsverk pr. aktivitet. Utgangspunktet for ferdigstillelse av delaktiviteter og prosjektavslutning er oppstart 1. mai 2006. Flere av aktivitetene vil utvikles parallelt. Framdriftsplanen er milepælsorientert, detaljplanleggingen vil utføres i forbindelse med prosjektoppstart. Aktivitetene er satt opp kronologisk etter starttidspunkt. Prosjektperiode er 01.05.2006 – 15.10.2006. Vi vil følge de kravene som Norges Forskningsråd stiller til rapportering. 


 
Nr

 

Aktivitet

 

Kort beskrivelse

 

Ant. mndsvrk.

 

Tidsperiode

 

01

Detaljplanlegging

Utarbeide en detaljert prosjektplan: prosjektmøter, utvelgelse av fokusgrupper osv.

0,5

Mai – jun 2006

02

Forskningssamarbeid

Identifisere samarbeidspartnere og etablere samarbeid

0,5

Mai 2006 – sep 2006

03

Formidlingstiltak

Info massemedia, medlemsblader, fagblader, tidsskrifter, konferanser, samt sette opp og organisere eget seminar

1

Jun 2006 – okt 2006

04

Norsk Språkbank

Gjøre opp status og legge grunnlaget for en viderreføring av arbeidet i et evt. Hovedprosjekt

0,5

Jun 2006 – sep 2006

05

Behovsanalyse

Forarbeid, gjennomføring og etterarbeid i forbindelse med intervjuer i fokusgrupper

2

Jun 2006 – sep 2006

06

Hovedprosjekt

Utrede et hovedprosjekt

0,5

Jul 2006 – sep 2006

07

Sluttrapport/søknad hovedprosjekt

Utarbeide sluttrapport og en eventuell søknad om et hovedprosjekt

1

Sep 2006 – okt 2006

Sum

 

 

6