– Databasen med talat språk är unik av två skäl: det finns ljudfiler till transkriptionerna. Och det går att följa hur språket har utvecklats över tid, säger Victoria Johansson, docent i allmän språkvetenskap. Dessutom finns det jämförelsevis få databaser med talat språk.
Världens första maskinläsbara databas med talat språk skapades av en grupp forskare vid University College London och professor Jan Svartvik i Lund mellan 1953 och 1987. Då var en dator något väldigt nytt, komplicerat – och stort. Datorn som hanterade London–Lund Corpus 1 tog ett helt rum i anspråk. (Korpus betyder för övrigt en stor samling språkliga data.)
– Den första databasen ligger till grund för kunskap om talspråkets struktur som spridits världen över, säger Carita Paradis, professor i engelsk språkvetenskap, som liksom sin företrädare Jan Svartvik deltog vid det internationella symposium som arrangerades för att inviga London–Lund Corpus 2.
Inspelat naturligt tal
Under symposiet, som ägde rum på Språk- och litteraturcentrum den 20 september, presenterades den nya språkdatabasen som inom kort blir tillgänglig för forskare och studenter världen över. Bristen på talspråkskorpusar med inspelat naturligt tal beror på att det är både kostsamt och tidsödande att samla in och transkribera talspråk. Hela arbetet här har tagit fem år, vilket är en mycket kort tid jämfört med systerkorpusen som tog decennier.
Doktoranden Nele Põldvere har gjort mastodontjobbet med att spela in hundratals olika samtal framförallt i London, och hon har tillsammans med assistenter transkriberat all data. Projektet började med att hon saknade material till sin avhandling.
– Jag behövde naturligt talspråk att forska på och det fanns inte. Nu är jag väldigt glad och stolt över att vi har rott detta i hamn, säger Nele Põldvere.
Många användningsområden
De flesta inspelningarna av samtal är gjorda på samma platser både i London-Lund Corpus 1 och 2. Carita Paradis är övertygad om att London–Lund Corpus 2 kommer att bli lika betydelsefull som den första. Kunskap om hur vi egentligen beter oss och uttrycker oss i när vi samtalar behövs inte bara inom språkvetenskapen utan för forskning där människans beteende är centralt, som till exempel inom psykologi, pedagogik, sociologi, AI och robotik, medicin och hälsa.
– Den kommer åter att sätta språkvetenskapen i Lund på kartan och ge material till massor av artiklar och avhandlingar världen över, säger Carita Paradis.
De två korpusarna är lika stora och strukturerade på samma sätt – de innehåller privata, vardagliga samtal mellan två eller flera personer och professionella samtal, till exempel inspelningar från Högsta domstolen i London, privata samtal på telefon, professionella föreläsningar och samtal mellan personer i olika positioner och från olika samhällsklasser.
– Det går att följa hur de sociala strukturerna mjukas upp och se vilka uttryck och grammatiska strukturer som försvunnit och vilka nya som tillkommit, säger Nele Põldvere.