Rapport ICCHP

Som tidligere, var det også i år stor spredning i tematikken, fra synshemminger til bevegelseshemminger. Det var bra nivå på presentasjonene i år, men ikke altfor mye som var relevant for MediaLTs pågående prosjekter.

Trend: Alternativ talegjenkjenning og styring av PCen

Nytt og hot i år var fokus på styring av PCen ved elektromagnetiske impulser. Dette kan for eksempel være EEG (hjernebølger) eller muskelbevegelser som oppfattes ved elektroder (EMG). En keynote omhandlet nettopp det siste: ” Week and Silent Speak: Technologies to support people with Special Impairements” av Tanja Schultz.

Schultz jobber altså med en tilnærmeing til ASR for speech impaired, akkurat slik vi gjør i Lydstyringsprosjektet, men ved hjelp av å fange opp ”silent speak” ved å få impulser fra musklene i ansiktet. Hun omgår dermed hele problemet vi har med å måtte fange opp og fortolke lydbølger. I stedet tolker hun muskelsignalene om til taleresultater. Måten dette gjøres på er ganske likt som i ASR, bortsett fra at input signalene er endret, med pre-prosessering av input signalene, språkmodeller, statistiske modeller, ordkorpus etc.

EMG kan også bistå mennesker med talevansker ved å forbedre dårlige hørbare signaler, for eksempel hvisking, ved å transformere først til språk og så til hørbar tale ut (speech augmentation).  Man kan også oversette direkte til fremmedspråk fra den gjenkjente teksten.

Neste steg vil være å lage EMG-baserte interfaces for svak og helt stille tale (silent speak).

Et problem er imidlertid at EMG ikke fanger leppene så bra. Akustisk gjenkjenning har vel per i dag 3 ganger bedre gjenkjenning enn EMG.

For mer info: April 2010 Special issue in Speech Communication Journal av Tanja Schultz.

Nettside: http://csl.anthropomatik.kit.edu/

Jeg har også kontaktinformasjonen til Tanja.

Tradisjonell talegjenkjenning for mennesker med nedsatt tale

Foad Hamidi fra universitetet i Yorku i Canada presenterte det eneste paperet som virkelig traff spikeren på hode hva gjelder Lydtekst prosjektet. Jeg mener Foad’s paper gir oss grunnlag for å søke på hovedprosjekt. Han og hans kolleger har gjort svært mange av de samme antakelsene som oss, og da jeg diskuterte prosjektet vårt med ham mente han at vi var på rett spor, og at han delte vår bekymring om variabel uttale hos samme taler – såkalt intra-speaker variation – som det største usikkerhetsmomentet i suksessen av en gjenkjenningsløsning for mennesker med nedsatt taleevne.

Foad har med flere laget en gjenkjenner på engelsk: CanSpeak (paper: ”CanSpeak:  A Customizable Speech Interface for People woth Dysarthric Speech”). De har bedre bakgrunn i feltet enn oss, og vi kan gjenbruke deres referanser.  De har gått for samme avveiinger som oss: taleruavhengig i den forstand at opplæring ikke skal være nødvendig før bruk (i motsetning til for eksempel Dragon), og med taleravhengig vokabular til gjenkjenning (tilpasset og closed domain). De startet med en default liste, slik vi har tenkt, og tilpasset denne. Uten tilpassing, med 47 ords liste som vokabular, fikk de med sine 4 testere fra rundt 30% opp til 56 % gjenkjenning. Testet med personer uten talevansker med default listen var raten 94%.

Med tilpassing ble høyeste gjenkjenningsrate 84,3 % (fremdeles 47 ord). De fikk de desidert beste resultatene der de hadde involvert ikke bare brukeren selv, men familie, lærere og pleiepersonell og tale spesialister. Å kun basere seg på brukeren selv i definisjonen av hensiktsmessige fraser ga svært liten bedring. Å få med miljøet rundt brukerne doblet (!) gjenkjenningsraten. Foad anbefalte oss på det varmeste å se om vi kunne få informasjon om vurderinger av uttalevansker fra talespesialister som input.

Han er veldig interessert i å følge vårt prosjekt og evnt bistå med råd. Han mente det å se på intra-speaker variation i forprosjektet vil være en veldig verdifull analyse. Han skulle også ta kontakt med Dr-Ing Torsten Felzer, som selv sitter i rullestol og har store talevansker, for å teste CanSpeak med ham. 

Felzer er fra Technische Universität Darmstadt, og jobber med å forbedre keyboard input for mennesker med store bevegelseshemminger. Han hadde forsøkt Dragon, men da opplæringsprogrammet ikke gjenkjente hans taleinput, og dermed ikke slapp ham videre, klarte han aldri å få opprettet brukerprofil og ta Dragon i bruk. Dette er nok noe Daniel Scheidegger har ”glemt” å ta i betraktning når han snakker om hvor tolerant Dragon er i sin gjenkjenning.

Eldre/parkinson

Colin Machin fra Loughborough university tok kontakt med meg og ønsker et samarbeid ang forskning på PD. Han arbeider på SUS-IT prosjektet som bla.a. søker semi-automatisert metode for å fange opp endringer i brukerkapasitet og tilby passende tilrettelegging til eldre brukere over tid.

En av keynotene var også om kognisjon/eldre, her om automatisert oversettelse til lettlestversjoner. Målgruppen var først og fremst mennesker med Afasi. Softwaren het Fips, den er noe testet med gode/ok resultater. Jaqueline Stark jobber med rehabilitering av mennesker med afasi, og fortalte blant annet om suksess med virtuell virkelighet for pasientene, med nettbasert terapi og virtuelle terapirom. De hadde hatt suksess med en virtuell lærer for en gruppe mennesker med Parksinson som skulle lære å snakke høyere.

Digital tilgjengelighet og DAISY

Det var et ganske sterkt fokus på haptisk/taktil interaksjon i grensesnitt. Det var også noe fokus på tilgjengelighet til matematikk, men kanskje noe mindre enn for 2 år siden. Ellers syntes jeg det var et urovekkende lavt nivå på forskningsartiklene om tilgjengeligheten i ulike e-bøker, e-bok systemer og portaler.

Et paper på pdf-accessibility  dokumenterer at pdf som regel ikke er tilgjengelige. Her sammenliknes pdf’er laget frau like authoring tools. Typisk mangler de tagging – overskrifter, indikasjon om lese-rekkefølge, tabell overskrifter og layout, skjemafelt, bildebeskrivelser etc. Se paper (”A Flexible Software Architecture Concept for the Creation of Accessible PDF Documents”) for litt status quo info på pdf tilgjengelighet.

Simon Ball har i paperet ”e-Books and Inclusion - dream come true or nightmare unending?” sett på ulike eBok-systemer, og vist at de fleste ebøker er nokså tilgjengelige, men at det er vanskelig å finne frem til dem og åpne dem. – “Once we got into the book, most books were accessible. Most testers needs help with at least 1 step in the process to get to the book.”

Jan Engelen snakket om jus angående å få bruke e-Bok lesere som lydbok lesere, og problemer med copyright loven i dette øyemed. Amazon Kindle har TTS funksjonalitet i leseren deres, men denne kan kun benyttes dersom forfatter/forlag eksplisitt godkjenner dette. Daisy miljøet jobber nå for å bedre distribusjonen av Daisy-formatet, bl.a. for at daisy 4 skal kunne porteres til epub formatet. Status på Daisy vs eBøker beskrives veldig kort i hans artikkel ” E-books and Audiobooks: What about their accessibility?”, men dessverre uten brukertester eller grundig analyse[MNB1] .

Det har blitt laget en save-as DAISY add-in til Open Office, som er gratis. Den har blitt laget i Aegis prosjekt, som visstnok utvikler en rekke gratis programvare og tjenester for økt inkludering. Den har TTS på 27 språk tilgjengelig. Den er daisy3 compliant.  Mer info: http://odt2daisy.sf.net/ Paper-tittel: ” Digital Access to Documents for People with Print Disabilities”.

Øvrig

Et paper tok for seg  en ”Interactive Screening Program for Developmental Dyslexia: Eye Movement Analysis in Reading Arabic Text”. Det kunne vært moro å forsøkt dette på norsk, ved eye trackeren til IU. Den er FYI tilgjengelig for oss, dersom vi ønsker å benytte den i prosjekter.

Jeg fikk kontakt med Helen Petrie, professor ved universitetet i York og leder av en HCI forskningsgruppe der. Hun tipset om et eAccessibility network som skal starte nå i august, der det nok vil være nyttig å være med – der vil det for eksempel være muligheter for å stille spørsmål ang utprøvd testmetodikk på brukertesting av grensesnitt etc.

 [MNB1]- -: - Engelen, Jan - html, pdf and rtl can be read by all e-book readers. Simple access online. On the spot. Ps: Several in law suit. Am. of just: Illigal for US uni to use any emerging tech not accessible to all unless ensuring  parallel accessible format.

Comment: Epub more accessible? daisy consortium G. Kerschner head of epub? http://www.daisy.org/daisypedia/epub