Uporaba prostorskega zvoka v interakciji človek
Transcription
Uporaba prostorskega zvoka v interakciji človek
Psihoakustika Človeško uho Človeško uho Človeško uho Frekvenčni odziv sluhovoda Človeško uho Človeško uho Polž in bazilarna membrana Spektralni analizator Različni deli se odzivajo različno odzivajo na različne frekvenčne komponente Nabor filtrov različnih pasovnih širin Pasovna širina filtrov je konstanta do frekvence 500 Hz, nato pa začne naraščati Vir: http://www.ifd.mavt.ethz.ch/research/group_lk/projects/cochlear_mechanics Glasnost zvoka IL (Intensity Level) ⎛ I ⎞ IL = 10 log10 ⎜⎜ ⎟⎟dB ⎝ I0 ⎠ ⎛W ⎞ PWL = 10 log10 ⎜⎜ ⎟⎟dB ⎝ W0 ⎠ I 0 = 10 −12 W / m 2 W0 = 10 −12 W SPL (Sound Pressure Level) ⎛ p2 ⎞ ⎛ p ⎞ ⎟⎟dB SPL = 10 log10 ⎜⎜ 2 ⎟⎟dB = 20 log10 ⎜⎜ ⎝ 20μPa ⎠ ⎝ p0 ⎠ P0 = 2 ×10 −5 N / m 2 ( Pa) Glasnost zvoka Nivo glasnosti (LL – Loudness Level) / fon (phon) SPL glasnost tona glede na osnovni ton s frekvenco 1000 Hz Dinamično področje do 80 dB x fonov = x dB (SPL) pri frekvenci 1k Hz Glasnost je odvisna od števila živcev, ki se vzbudijo (najmanjši premiki so 0.04nm) Krivulje enake glasnosti Glasnost zvoka Krivulje enake glasnosti Glasnost zvoka Relativna glasnost dveh zvočnih signalov Zaznana glasnost in dejanska vrednost v fonih nista linearno odvisni Glasnost 60 fonov ni zaznana kot dvakrat večja od glasnosti 30 fonov Spremembo 10 fonov je zaznati kot podvojitev glasnosti (premik iz ene krivulje enake glasnosti na drugo) Subjektivna glasnost je definirana v “sonih” Podvojitev glasnosti (L) v sonih pomeni povečanje LL za 10 dB Glasnost zvoka Povezava med enotama fon in son za 1kHz ton Glasnost zvoka Velik dinamični razpon 120 – 160 dB (108 – krat) SPL (dB) Opis SPL (dB) Opis 170 Bolečina 70 Restavracija 160 Reaktivec 60 Pogovor 140 Rock koncert 40 Tih pogovor 120 Strela 30 Šepetanje 110 Vlak (subway) 20 Hoja po listju 100 Vrtalni stroj 10 Dihanje 90 Kosilnica 0 Prag slišnosti Glasnost zvoka Merjenje SPL s filtri Krivulja A: dbA – 40 phonov Krivulja B: dbB – 70 phonov Krivulja C: dbC – 100 phonov Glasnost zvoka Glasnost zvoka in pasovna širina Subjektivno zaznavanje glasnosti je močno odvisno od pasovne širine signala Signal s konstantnim SPL (60dB) in centralno frekvenco 1kHz Kritični pasovi Zap. številka kritičnega pasu / Bark fsp / Hz fzg / Hz B / Hz Zap. številka kritičnega pasu / Bark fsp / Hz fzg / Hz B / Hz 1 20 110 90 13 1700 1970 270 2 110 200 90 14 1970 2290 320 3 200 295 95 15 2290 2670 380 4 295 395 100 16 2670 3120 450 5 395 503 108 17 3120 3680 560 6 503 625 120 18 3680 4360 680 7 625 755 130 19 4360 5200 840 8 755 900 145 20 5200 6200 1000 9 900 1060 160 21 6200 7500 1300 10 1060 1250 190 22 7500 9300 1800 11 1250 1460 210 23 9300 11700 2400 12 1460 1700 240 24 11700 15000 3300 25 15000 19600 4600 ΔFc = 25 + 75 ⎡1 + 1.4 ( Fc /1000 ) ⎤ ⎣ ⎦ 2 0.69 Širina kritičnih pasov v odvisnosti od centralne frekvence narašča linearno do 1000 Hz, nato pa eksponentno! Glasnost zvoka in njegovo trajanje Zelo kratki zvoki (impulzi) so zaznani z manjšo glasnostjo Ton (pitch) Zaznava tona je izrazito subjektivna in odvisna od frekvence in amplitude zvočnega signala Enota za ton je mel 1000 Hz (SPL = 60 dB) = 1000 mel Ton se označuje kombinacijo črk in številk (C0, C1, A440, A880…) Povezava med tonom in frekvenco je logaritemska Razlika med A220 in A440 se sliši enako kot razlika med A440 in A880 Ton (pitch) Frekvenca Zaznava frekvence zvočnega signala (tona) je odvisna od absolutne frekvence in amplitude Ljudje lahko zaznamo 3Hz razlike med dvema tonoma (v področju do 500Hz) Nad 500 Hz je ločljivost 0.003F0 Približno 1% človeške populacije sposobno absolutne zaznave frekvence (tona) Absolutno pa lahko ločimo le nekje 5-7 različnih frekvenc in 5-7 nivojev glasnosti Zaznavanje kompleksnih tonov Primer: Signal, ki vsebuje frekvence 200Hz, 400Hz, 600Hz, itd. zaznamo kot signal osnovne frekvence 200Hz Enako zaznamo tudi, če osnovna frekvenca sploh ni prisotna v signalu Maskiranje Medsebojni vpliv zvočnih signalov oz. prekrivanje enega z drugim Maskirni in maskirani zvočni signal Maskirano področje obsega frekvence pod in nad frekvenco maskirnega signala in je odvisno od širine pripadajočega kritičnega pasu Maskiranje Maskirni efekt je izrazitejši za frekvence, ki so višje od maskirnega signala Maskirni efekt je izrazitejši pri maskirnih signalih visokih glasnosti Maskirni ton: 400 Hz Maskirni ton: 2kHz Maskiranje Maskiranje s hrupom Večanje pasovne širine belega šuma poveča maskirni efekt, dokler ne presežemo pasovne širine kritičnega pasu, znotraj katerega se nahaja maskirani signal Časovno maskiranje Zvočni signali, ki nastopijo tik pred ali za maskirnim signalom so lahko maskirani Zaznavanje odbojev zvočnega valovanja Vpliv enega odboja (več poskusov) Razmerje med nivoji in zakasnitvami direktnih in odbitih zvokov Zaznavanje odbojev zvočnega valovanja Smer odbojev nima vpliva na zaznavo Tip signala ima velik vpliv na zaznavo Izjema: če je odboj iz iste smeri kot direktni zvok (mora imeti od 5-10 dB višji nivo, da ga sploh zaznamo – maskirni efekt) Impulzi (kliki, poki) imajo manjši vpliv kot zvezni zvoki (šum, glasba) Vpliv spektra signala ne vpliva na zaznavo odboja Govorni signali Generacija in zaznava govornega signala Vir: http://www.rle.mit.edu/smcg/perkell_ people.htm Govorni signal Generacija človeškega govora Govorni signal Osnovne enote govora Fonemi Zlogi Samoglasniki in soglasniki Osnovne značilnosti Govor je zaporedje spreminjajočih se glasov Ko-artikulacija: medsebojni vpliv posameznih delov govora Osnovna frekvenca (“pitch” – F0) in višje resonančne frekvence (“formants” - F1, F2, F3, itd.) Osnovna frekvenca pri moških: 85 – 180 Hz Osnovna frekvenca pri ženskah: 165 – 255 Hz Dojenčki: ~ 500 Hz Za razumljivost govora so pomembne predvsem višje frekvence (izjeme: kitajščina) Govorni signal Amplituda govornega signala Odvisna od razpoloženja govorca, hrupa okolice, itd. Razmerje signal/šum je lahko negativno, a je govor še vedno razumljiv Povečanje hrupa za 1dB povzroči povečanje nivoja govora za 0.5 dB Lokacija Nivo hrupa (dB) Nivo govora (dB) Šola 50 71 Dom - zunaj (mesto) 61 65 Dom – zunaj (podeželje) 48 55 Dom – znotraj (mesto) 48 57 Dom – znotraj (podeželje) 41 55 Trgovina 54 58 Vlak 74 66 Letalo 79 68 Govorni signal Frekvenca govornega signala Energijsko najbogatejši del frekvenčnega spektra ni enak tistemu delu spektra, ki je pomemben za razumljivost govora 84% energije govornega signala se nahaja do frekvence 1kHz Za razumljivost so pomembne predvsem frekvence med 300 Hz in 4 kHz Hitrost govorjenja Hitrost artikulacije je neodvisna od hitrosti govorjenja Pri hitrem govorjenju se skrajša le premor med posameznimi zlogi v besedah Zaznavanje govora Ločena dela možganov za zaznavanje zvoka in zaznavanje govora Kvaliteta in razumljivost nista povezana Kvaliteta: reprodukcija Razumljivost: količina prenesene informacije Primeri: Zaporedje naključnih zlogov visoke kvalitete (dojenčki) Posnetek govora z glasno motnjo v ozadju Vojaške komunikacije (“clipping”) Zaznavanje govora Zaznavanje govora v šumnem okolju Zaznavanje govora je možno tudi pri zelo nizkih razmerjih SNR Zelo pomembna je predvidljivost (sintaktična informacija) Primeri: Kdor visoko leta …. Žive naj vsi narodi, ki … Shannon-ova igra predikcije Zaznavanje govora Prepoznava različnih govornih signalov v šumnem okolju (Miller, Heise, Lichten) Zaznavanje govora Vpliv velikosti nabora besed (slovarja) na prepoznavo Zaznavanje govora JND (Just Noticeable Difference) Najmanjša sprememba v določenem fizikalnem parametru govornega signala, ki jo je še mogoče zaznati Parameter Osnovna frekvenca Glasnost JND 0.3 – 0.5% 1.5 dB Merjenje kvalitete govornega signala Objektivne meritve kvalitete Razmerje med močmi signala in šuma ⎛ Psignal SNR = 10 log10 ⎜⎜ ⎝ Pšum ⎞ ⎟⎟ ⎠ Srednja kvadratna napaka (MSE) 1 MSE = N N −1 ∑ (s[i] − p[i]) i =0 2 Merjenje kvalitete govornega signala Subjektivne meritve kvalitete in razumljivosti MOS testi (Mean Opinion Score) Odlična kvaliteta MOS=4 MOS=3 MOS=2 MOS=1 Kvaliteta in razumljivost sta neprimerna za komunikacijo Primeri MOS ocen Opazovani in referenčni signal se ne razlikujeta v kvaliteti in razumljivosti Dobra kvaliteta Zadovoljiva kvaliteta Slaba kvaliteta Zelo slaba kvaliteta MOS=5 Širokopasovni sistemi (50 Hz – 7 kHz): Mobilni sistemi (celični): Nizko-bitni koderji in sintetiziran govor: MOS=4.5 MOS=3.5 - 4.0 MOS=2.0 – 3.5 MOS test je standardiziran s strani ITU-T (P.800) Merjenje kvalitete govornega signala PESQ (Perceptual Evaluation of Speech Quality) Avtomatska določitev MOS ocene na osnovi primerjave opazovanih in referenčnih signalov Koraki Časovna poravnava opazovanega in referenčnega signala Uporaba modela slušnega sistema (vpliv kritičnih pasov, dojemanja glasnosti, itd.) Seštevanje napak s povprečenjem po času in frekvenci Rezultat je MOS ocena Ujemanje med dejanskimi MOS testi in PESQ izračuni je 78% – 98% Merjenje kvalitete govornega signala Merjenje razumljivosti govornega signala DRT (Diagnostic Rhyme Test): sposobnost ločevanja dveh besed, ki se rimata (primer: nos, kos) MRT (Modified Ryhme Test): zaznava ene iz nabora več podobnih besed (primer - ang: rat, cat, cap, tap, itd.) Fonetično urejeno zaporedje besed: 50 stavkov sestavljenih iz 20 besed ICAO črkovalni testi: “alpha”,”bravo”,”charlie”,”delta”, itd.