Nozioni e termini di fonetica acustica. Come si analizza il segnale acustico 2 . l’unico oggetto in grado di farlo. diverso da quello prodotto dalla vibrazione dell’una o dell’altra corda. si continuerà a sentire un singolo suono. 1.. Lo spettrogramma è la rappresentazione grafica di tale procedimento. oscilli in ogni sua parte a una e a una sola frequenza. In natura non esistono sorgenti sonore in grado di produrre onde semplici. Essa si serve principalmente della spettrografia. la corda di una chitarra. deve essere appositamente costruito in modo tale che. la tecnica di analisi che permette la scomposizione. Tali frequenze vengono dette armoniche: la frequenza più bassa è detta fondamentale (o prima armonica) e corrisponde sul piano percettivo all’altezza (o tono) del suono prodotto. se si mettono in vibrazione contemporaneamente due corde. Un’onda è detta semplice se è prodotta da un corpo che oscilla in ogni sua parte a una stessa frequenza. Definizione La fonetica acustica è lo studio dei segnali acustici complessi diretto a scomporli nelle loro componenti semplici. una multipla dell’altra. il diapason. quando messo in vibrazione. ad es. mediante il procedimento matematico denominato trasformata di Fourier. costituito dalla somma di più frequenze. come. La ragione è che le onde sonore hanno 3 . Per restare all’esempio della chitarra. il segnale generato è un segnale complesso. Anche nel caso di una corda tesa vincolata alle due estremità. costituita dalle corde (o pliche) vocali. L’applicazione della tecnica spettrografica all’analisi della voce risale al 1951. della loro conformazione e dimensione. esso genera frequenze differenti a seconda della forma assunta dalle diverse cavità (laringale. Per quanto riguarda il risonatore. Il tracciato spettrografico è il tentativo di rappresentare graficamente tutto questo. nasale). faringale. risultano rilevanti sul piano percettivo. che si mette a oscillare a frequenze che dipendono dalla sua forma e dal materiale di cui è costituito. Il risultato di tutta questa complessa attività è la voce. alle onde prodotte dalle vibrazioni della corda si aggiungono quelle prodotte dal risonatore. dell’elasticità dei tessuti. Se alla corda vibrante si aggiunge un risonatore. in particolare del muscolo tensore (il cricotiroideo) che tende in misura maggiore o minore le due corde facendole vibrare a frequenza diversa. Anche tali frequenze variano molto rapidamente nel tempo grazie alla grande motilità degli organi articolatori e ciò comporta significative variazioni del segnale prodotto che. orale. anno in cui 4 .la proprietà di sommarsi tra loro. un’onda sonora le cui caratteristiche variano istante per istante in dipendenza dei movimenti articolatori. L’apparato fonatorio è molto più complicato di una semplice corda vibrante accoppiata a un risonatore a volume fisso: la sorgente sonora. come la cassa armonica della chitarra. anche se dell’ordine di pochi millisecondi. varia rapidamente grazie alla contrazione di alcuni muscoli laringei. La frequenza dell’onda complessa risultante equivale alla frequenza della sua componente più bassa. 5 . Gli spettrogrammi riportati nelle figure seguenti sono stati prodotti con WaveSurfer 1. come il CSL (Computerized speech lab) della Kaypentax..5. come il Multi-Speech. o il Praat. elaborato presso l’università di Amsterdam e scaricabile dalla rete. commercializzato dalla stessa società.8. un software open source elaborato dal CTT (Centre for speech technology) del KTH (Kungliga tekniska Högskolan. sia software. Oggi sono disponibili vari modelli di spettrografi.viene prodotto e messo in commercio dalla Kay Electrics il primo modello di sound spectrograph. Royal Institute of technology) di Stoccolma. sia hardware. in ingl. Sull’asse delle ascisse viene rappresentato il tempo. Lo spettrogramma Lo spettrogramma è il tracciato tridimensionale ottenuto mediante la scomposizione del segnale complesso nelle sue varie componenti semplici. in quanto separa le singole armoniche che vengono rappresentate da una serie di striature 6 . La terza dimensione è quella dell’intensità. rappresentata dal maggiore o minore annerimento del tracciato. I due filtri passabanda comunemente utilizzati hanno una larghezza di 45 Hz (spettrogramma a banda stretta) e di 300 Hz (spettrogramma a banda larga). 1). A seconda del diverso procedimento utilizzato nel filtrare il segnale complesso. lo spettrogramma assume caratteristiche diverse (fig. 2. Il primo mette in evidenza il comportamento delle corde vocali. sull’asse delle ordinate le frequenze. Il secondo mette in risalto le cosiddette formanti (frequenze di risonanza generate dalle cavità sopralaringali) evidenziate da zone di maggiore annerimento. formanti più basse nella voce maschile rispetto alla voce femminile e a quella infantile. dalla glottide alla labbra. La distanza tra due striature contigue. Per quanto riguarda le altezze formantiche. misurata in Hz sulla scala delle frequenze. più corto di circa il 15% nella donna e del 50% nel bambino: questo comporta. tra 250 e 350 Hz per una voce di bambino. dipende non solo dalla forma del risonatore ma anche dalla sua dimensione: in generale si può dire che più piccola è la cavità. il canale epilaringeo.orizzontali. più corte e sottili nella donna.5 cm nell’uomo. ancora più corte nel bambino. senza che vengano perdute le informazioni sul comportamento della sorgente glottidale: le aperture e chiusure delle corde vocali sono infatti rappresentate da striature verticali periodiche. a parità di conformazione. Sia la frequenza fondamentale che le altezze formantiche variano in relazione alle caratteristiche fisiche del parlante. La frequenza fondamentale di un parlato conversazionale è mediamente compresa tra 70 e 150 Hz per una voce maschile. dà il valore della frequenza di vibrazione della glottide o frequenza fondamentale (F0). Tali differenze sono dovute alla diversa lunghezza e al diverso spessore delle corde vocali. L’altezza di una formante. è mediamente lungo 17. tra 150 e 250 Hz per una voce femminile. più lunghe e spesse nell’uomo. 7 . più alta è la frequenza alla quale risuona. misurata nel punto centrale della banda annerita. 8 . la loro intensità e l’andamento intonativo dell’enunciato. Infine l’analisi spettrografica permette di evidenziare i numerosi effetti di coarticolazione che caratterizzano il parlato. in quanto dal tracciato è possibile ricavare la durata dei singoli foni. Oltre all’analisi di tipo segmentale. 2). lo spettrogramma consente anche un’indagine di tipo soprasegmentale (fig. maggiore è la costrizione. La loro produzione è quindi caratterizzata da una gran quantità di flusso d’aria espiratoria per tutta la loro durata e ciò. per le vocali posteriori protruse. più la vocale è chiusa più le due formanti sono basse e vicine. 3. 9 . Le vocali Le vocali sono foni prodotti con un canale fonatorio libero. Per l’individuazione delle vocali è sufficiente far riferimento all’altezza delle prime due formanti (F1 e F2) la cui dislocazione cambia a seconda della vocale: in generale si può dire che. rispetto ai valori formantici di [ə]. corrisponde a un segnale molto intenso. ben definite e marcate. maggiore è l’effetto sulla formante. l’innalzamento della F1 e l’abbassamento della F2. Inoltre l’assenza di impedimenti permette alle cavità sopralaringali di vibrare liberamente alle proprie frequenze di risonanza. più la vocale è chiusa più le due formanti sono distanti l’una dall’altra. sullo spettro. Nella determinazione del grado di apertura della vocale vanno tenute presenti le seguenti corrispondenze articolatorio-acustiche: (b) un restringimento nella cavità faringale determina. per cui le formanti saranno. in termini acustici. che non presenta chiusure né restringimenti. per le vocali anteriori. (c) l’arrotondamento e la protrusione delle labbra determinano l’abbassamento di tutte le formanti. dove x è la lunghezza cercata e k è la distanza Fn+1 – Fn misurata in Hz.F2 F1 .1400 10 .1840 620 . maggiore è l’effetto sulle formanti.2040 400 . il canale epilaringeo è lungo 17.F2 voce maschile voce femminile [i] 280 .1280 920 .2240 320 . Infatti se la distanza in Hz tra due formanti consecutive (Fn+1 – Fn) è uguale a 1000 Hz.2500 [ɛ] 560 .5 ‧ 1000 / k.5 cm. assegnare il corrispondente simbolo IPA. Per valori diversi di Fn+1 – Fn è possibile ricavare la lunghezza della distanza glottide-labbra del locutore secondo la formula x = 17. il cui tracciato costituisce un utile punto di riferimento nell’operazione di lettura spettrografica. Avendo come riferimento la vocale centrale è possibile determinare con precisione le caratteristiche articolatorie dei segmenti vocalici e.2750 [e] 360 .2400 [a] 800 . in base ai valori di F1 e F2 di ciascuno di essi. maggiore è la labializzazione. I valori medi di F1 e F2 delle sette vocali dell’italiano pronunciate da voce adulta maschile e femminile sono riportati nello specchietto che segue (ricavato da Ferrero & Magno Caldognetto 1986): vocale F1 . L’unica vocale ad avere tutte le formanti equidistanti l’una dall’altra è la vocale centrale [ə]. 900 640 .720 360 .760 La fig.920 [u] 280 . 11 .800 400 .1200 [o] 420 . [ɔ] 520 . 3 mostra i pattern formantici delle sette vocali dell'italiano pronunciate da voce maschile. 4. lo spettrogramma permette immediatamente di distinguere i tratti sonori da quelli sordi: le consonanti sonore sono caratterizzate da striature verticali periodiche corrispondenti alle aperture e chiusure glottidali. 4 sono evidenziati i tratti sordi e quelli sonori. il pattern spettrografico di ciascun modo deriva dalla meccanica articolatoria che lo contraddistingue. Qui di seguito sono riassunte 12 . In fig. Le consonanti Sul piano articolatorio i parametri che individuano una consonante sono tre: la sua natura sorda o sonora. le consonanti sorde da assenza di periodicità del segnale. Per quanto riguarda il modo di articolazione consonantico. Riguardo al primo punto. il modo e il luogo di articolazione. striature periodiche alla base) seguito da striature molto marcate di breve durata (b) consonanti nasali correlati acustici: mormorio nasale per tutta la durata della consonante pattern spettrografico: striature verticali periodiche (in quanto sempre sonore). (a) consonanti occlusive correlati acustici: silenzio per tutta la durata della consonante seguito da forte rumore momentaneo pattern spettrografico: spazio bianco (nel caso di occlusiva sonora.le caratteristiche acustiche e spettrografiche dei singoli modi di articolazione. formanti marcate intorno ai 250 Hz e sbiadite tra i 250 Hz e i 2000 Hz (c) consonanti fricative correlati acustici: fruscio per tutta la durata del fono pattern spettrografico: striature verticali irregolari (nel caso di fricative sonore si aggiungono striature periodiche) (d) consonanti affricate correlati acustici: silenzio seguito da fruscio 13 . dell’occlusiva [t]. della nasale [n]. 14 . pattern spettrografico: spazio bianco seguito da un tratto caratterizzato da striature irregolari (nel caso di affricate sonore si aggiungono striature periodiche) (e) consonanti vibranti correlati acustici: rapido alternarsi di silenzio e rumore pattern spettrografico: successione di brevi spazi bianchi e striature verticali periodiche (le vibranti sono sempre sonore) (f) consonanti laterali correlati acustici: suono continuo di tipo vocalico. ma meno intenso pattern spettrografico: striature verticali periodiche (le laterali sono sempre sonore) con formanti marcate e distinte Alcuni esempi di modi consonantici sono mostrati in fig. Si notano i tratti tipici delle consonanti fricative [f] e [ʃ]. 5. Infine va detto che anche la F1 varia al variare del luogo articolatorio. Infatti se la F1 è inferiore ai 500 Hz la costrizione è localizzata nella cavità orale. Il luogo di articolazione delle consonanti è spettrograficamente ricavabile dall’altezza della F2. come nel caso delle occlusive. Liberman & Cooper 1955. Tali valori si riferiscono a una voce maschile (per una voce femminile è sufficiente aumentarli del 15%). intorno ai 700 Hz se la vocale è procheila. 2000 Hz per un luogo palatale. 1800 Hz per un luogo dentale o postalveolare. formulata per la prima volta da Delattre. Per quanto riguarda i loci delle consonanti occlusive si può notare come la velare iniziale [k] 15 . delle seconde formanti delle vocali a contatto (la «teoria dei loci». 6. Tali deviazioni convergono verso un locus che rappresenta il corrispettivo acustico del luogo articolatorio: 700 Hz per un luogo labiale. Quando. è riportato lo spettrogramma della frase quell’assolo di tromba. è possibile ricavare il luogo dalle deviazioni. e successivamente ripresa da vari studiosi). ascendenti o discendenti. se la F1 supera i 500 Hz la costrizione è nella cavità faringale. Per un luogo velare vi sono due diversi loci: al di sopra dei 2200 Hz se la vocale a contatto è aprocheila. In fig. a titolo riassuntivo. la F2 non è visibile. e come le alveolari [d] e [t] abbiano entrambe un locus di F2 intorno ai 1800 Hz. cfr. già presente nella prima [o]. Notiamo infatti che il segnale più intenso si trova inizialmente nella zona compresa tra i 5 e i 7 kHz. nel secondo si trova a contatto con vocali protruse e arrotondate. La labializzazione quindi.presenti un locus al di sotto dei 1000 Hz per effetto della vocale procheila a contatto. Koževnikov & Chistovich 1965). Tale punto segna il confine tra un’unità articolatoria di programmazione (detta anche sillaba articolatoria) e la successiva (su questo. Inoltre. intorno ai 1200 Hz la seconda. 16 . ma a partire da un certo istante. ad es. evidentemente per un ritardo della chiusura del diaframma rinovelare (il velo pendulo ha una velocità intrinseca minore rispetto agli altri organi articolatori). Effetti di coarticolazione sono visibili anche nel tratto corrispondente alla fricativa [s]. per economia articolatoria permane durante la produzione della laterale e continua nella vocale che segue. L’abbassamento di tutto il segnale indica che anche questa volta la causa della variazione acustica va ricercata nello spostamento delle labbra. Si nota. anticipando la labializzazione della vocale che segue. che le due consonanti laterali [l] presentano una diversa F2: intorno ai 1800 Hz la prima. il tracciato evidenzia molti fenomeni di coarticolazione. il segnale si abbassa bruscamente. L’abbassamento è evidentemente dovuto alla labializzazione: nel primo caso la consonante è in contesto non labializzato. che iniziano ad arrotondarsi durante la consonante. Interessante è anche il nesso [mb]. in quanto si può notare come la nasalità (caratterizzata dal segnale poco intenso ma diffuso) continui anche durante l’occlusiva.. circa a metà del tratto. impediscono la spontaneità e la normalità dell’eloquio. L’analisi spettrografica consente. cineradiografiche. 17 . le quali. di rivelare molti dettagli articolatori che non potrebbero in alcun modo essere individuati se non mediante tecniche di indagine più o meno invasive (radiografiche. in definitiva. palatografiche). peraltro. L’indagine spettrografica resta quindi uno strumento essenziale per lo studio della voce e del suono linguistico. Delattre.. Les indices de la parole: premier rapport. Kluwer Academic Publishers. pp. edited by A. Alvin M. Acoustic loci and transitional cues for consonants. «Phonetica. & Raphael. Pierre C. Borden. The Hague. Le jeu des transitions des formants et la perception des consonnes. Gloria J. Mouton. Katherine S. Lawrence J. Pietro (20023). pp. International journal of phonetic science» 2. Speech science primer. Speech acoustics and phonetics. pp. Harris. Liberman. Manuale di fonetica. Delattre. 4. 769- 773. & Cooper. acoustics. Lippincott Williams & Wilkins. Philadelphia.London. (1955). Pierre C. Proceedings of the fourth international congress of phonetic sciences held at the University of Helsinki (4-9 September 1961). Aalto. Physiology. Carocci (1a ed. Pierre C.. Dordrecht . 407-417. (1958). and perception of speech. Studi Albano Leoni. (1962). Roma. NIS. Delattre. Federico & Maturi. (1994). Fant. Roma. Gunnar (2004). 1995). «Journal of the Acoustical Society of America» 27. 108-118. Franklin S. Sovijärvi & P. 18 . C. Baltimore. A primer of acoustic phonetics and speech perception. The sounds of speech communication. (1989). Washington D. 19 . Pickett. Zue. Edizioni Scientifiche Italiane. vol. & Magno Caldognetto. Massimo (1992). James M. Koževnikov. 3° (Aspetti fonetici della comunicazione). Valeriĭ R.. La fonetica sperimentale. University of Edinburgh Centre for Speech Technology Research. L. Speech: articulation and perception. (1965). (1980). 1983-1988. University Park Press. in Trattato di foniatria e logopedia. Croatto. Speech spectrogram reading (May 29 . pp. 4 voll.June 2. Edinburgh. Giannini. Napoli. University of Edinburgh. 155-196. Padova. 2 voll. a cura di L. Elementi di fonetica acustica. Franco E. & Chistovich. Emanuela (1986). La Garangola. translated by Joint Publications Research Service. Victor W. 1989). Ferrero. Antonella & Pettorino.
Report "Pettorino M.-nozioni e Termini Di Fonetica Acustica"