Audio Processing and Subtleties of Listener Retention
Audio processing between TSL and new technologies
(🇮🇹 version below)
Frank Foti, Omnia Audio
June, 2026
In today’s world, over-the-air broadcast radio is fighting for every single listener available! Given the plethora of choices via streaming, personal devices, and alternative radio services, holding the attention of a listener is more than just exciting formatics. It also has to do with the subtleties of what may cause a listener to remain locked in, or tune away.
Aside from the station format, and how it’s executed, the other key element is how the station sounds – technically. Here’s where audio processing plays a huge role. The old adage of ‘crank it up and rip the knob off’ might be a great slogan, but creating a great sounding station – technically – is more than just revving up the processing with a goal of being the loudest big boy on the dial. Yes, it is possible to sound competitively loud, and possess good audio quality with modern processors, but there’s even more to it. There is an annoyance factor that can occur with processing, and this essay will detail why that happens, and provide a new solution.
Annoyance Factors
In the technical domain of signal processing there are a number of factors which govern how the resulting audio sounds. The two key items are both rooted in forms of distortion.
Harmonic distortion (THD) is typically the sound one hears where the audio appears ‘broken’. In an audio processor THD is affected by the level of clipping which is employed for competitive loudness. Too much clipping may help burn a hole on the dial, but the quality will usually suffer. (Yes, there are distortion controlling mechanisms in many processors, but as with anything, there IS a limit.)
Intermodulation distortion (IMD) is created when a dominant portion of the audio spectrum will affect another portion through modulation. A simple example of this is the basic audio compressor. When set for very fast attack/release, the compressor will modulate the resulting audio to the point where it will sound busy, or as some may say ‘bizzy.’ This occurs because the control signal of the compressor is operating at, or near the frequency of the audio spectrum, and it is adjusting the audio so fast, the ear perceives it in a very annoying fashion.
This annoyance can occur, if the time constants in compressors or limiters are set incorrectly. The result can take on the appearance of the audio ‘breathing’ due to heavy depth of compression coupled with very fast time constants. I know there are some folks in our industry who actually like or prefer this signature, but research has shown this affected sound to turn off most listeners, especially women! Yes, processing set in this manner will generate extremely dense audio. Yet, when the brain perceives a dense signal, it reacts negatively and subtly begins to tune out. In my own listening, I refer to this as ‘constipated audio.’
Clipper Systems
While discussion, thus far, has focused on the dynamic aspects of processing, the critical mass occurs in the final section, which is usually referred to as the final limiter, or clipper. Digital signal processing techniques have improved the final limiting function ‘many fold’ over their analog counterparts, but there still are limitations to what these systems are capable of…until now!
As mentioned prior, we have mechanisms that can monitor, control, suppress, and filter THD. These functions help enable competitive loudness and minimize the distortion side-effects. While very much a benefit, they do nothing to reduce any annoyance due to clipper induced IMD.
The challenge presented here occurs when clipper action on various parts of the spectrum, pushes the rest of the audio in and out of the clipper system, whether it needed to be clipped (truncated) or not. Since all of this activity is happening at the rate of the audio signal, meaning there is an instant attack, and instant release function, the generated IMD can build up quite significantly. In our broadcast systems, there is usually an emphasis network employed, which boosts the high frequency range. This further pushes the presence and treble frequencies into heaving limiting, almost at all times. The result can be very dense, and annoying to the ear.
Enter the FFT
Over the years, processing algorithms have evolved using the Fast Fourier Transform (FFT for short). We refer to this as managing a signal in the frequency domain, as compared to the time domain. Time domain signals are continuous waves – in time, as would be observed on an oscilloscope, where frequency domain signals are independent of time, and managed within frequency bins. Through creative design, it has been possible to further reduce THD in the broadcast clipper system. Yet, the problem of IMD annoyance remains, and with the FFT, it can even get worse! How so, then read on!!
One benefit the FFT offers is the ability to manage the frequency spectrum in a very finite manner. The FFT is a frequency domain function that utilizes many ‘bins’ to store and manage audio information. These bins are set in the FFT function, as a power of two. So, for example, we can create an FFT function that has 1024 bins, which is 2 to the power of 10. Given the audio spectrum of 15kHz for FM-Stereo, and with a sampling rate of 192kHz, we will divide the sampling rate by 1024. In this example 192kHz divided by 1024 results in each bin being 187.5 Hz wide. As you can see, this is very precise and offers a lot of flexibility upon what can be managed and adjusted over the range of the entire audio spectrum. It also provides exceptional filtering capabilities too. So far, so good…Not so fast!!
As with most aspects in life, there is no free lunch. Same applies here. While the FFT provides great filtering, and THD management, it suffers with regards to how transparent audio transients are handled. By example, let’s take a well recorded audio track from Steely Dan, the song ‘Babylon Sister.’ It opens with four very distinct tom-tom drum hits, which contain great transients. When passed through the FFT clipper system, the drum transients get lost and/or muffled, when in reality, they need to remain transparent. This occurs due to the nature of the FFT transform, and without going into extremely deep technical jargon, as to why, it is not possible to preserve the sharp transient response. This is known as ‘transient smearing,’ and it also affects IMD perception as well. While the FFT provides very low THD, the level of IMD is still in the subtle annoying range.
A Fresh Approach
While extensive research was conducted on FFT methods, it was not possible to eliminate the loss of transients (transient distortion for short), as well as the aforementioned IMD from the FFT based clipper system. After considering the main benefit of the FFT, which is the precise filtering via the ‘bins’, a new approach was devised in the time domain. This replicated the benefits of FFT filtering, along with new algorithmic elements to suppress clipper induced IMD. An entire new system evolved which provides excellent THD…AND…IMD suppression…AND…preserves transient transparency! The results yields an open, clean, and competitively loud signature, without transient distortion. In simple terms, the audio is easier to listen to, and very natural sounding! This will enable longer listening, as the subtle reason to tune away has been removed!
The introduction of Omnia.XII employs this new clipping system, and it also has added new algorithms to the dynamic compressor and limiter sections, which monitor and reduce IMD as well. The end result is a fresh approach to audio processing that delivers high quality, competitive loudness, without the sonic annoyances that other systems create. Now, this raises the bar with regards to improving listener retention, which will result in improved time spent listening (TSL), as we have removed tune out annoyances.
🇮🇹 Version
Elaborazione Audio e Sottigliezze della Fidelizzazione dell’Ascoltatore
Frank Foti, Omnia Audio
Giugno 2026
Nel mondo di oggi, la radio broadcast over‑the‑air sta lottando per ogni singolo ascoltatore disponibile! Data la moltitudine di scelte tra streaming, dispositivi personali e servizi radio alternativi, trattenere l’attenzione di un ascoltatore richiede molto più dei soli elementi di formato. Entrano in gioco anche le sottigliezze di ciò che può spingere un ascoltatore a rimanere sintonizzato o ad allontanarsi.
Oltre al formato della stazione e a come viene eseguito, l’altro elemento chiave è come la stazione suona – tecnicamente. È qui che l’audio processing gioca un ruolo enorme. Il vecchio adagio “crank it up and rip the knob off” può essere un grande slogan, ma creare una stazione che suona bene – tecnicamente – è molto più che spingere il processing al massimo con l’obiettivo di essere il più forte sulla banda. Sì, è possibile suonare competitivamente forti e mantenere una buona qualità audio con i processori moderni, ma c’è molto di più. Esiste un fattore di fastidio che può emergere dal processing, e questo saggio spiega perché accade e presenta una nuova soluzione.
Fattori di fastidio
Nel dominio tecnico dell’elaborazione del segnale esistono diversi fattori che determinano come suonerà l’audio risultante. I due elementi chiave sono entrambi radicati in forme di distorsione.
La distorsione armonica (THD) è tipicamente ciò che si percepisce quando l’audio sembra “rotto”. In un processore audio la THD è influenzata dal livello di clipping utilizzato per ottenere loudness competitivo. Troppo clipping può aiutare a “bruciare un buco sul dial”, ma la qualità ne risentirà. (Sì, molti processori hanno meccanismi di controllo della distorsione, ma come per tutto, esiste un limite.)
La distorsione da intermodulazione (IMD) si crea quando una parte dominante dello spettro audio influenza un’altra parte attraverso modulazione. Un esempio semplice è il compressore audio di base. Quando impostato con attack/release molto veloci, il compressore modula l’audio risultante al punto da farlo suonare “busy”, o come alcuni dicono “bizzy”. Questo accade perché il segnale di controllo del compressore opera a una frequenza vicina a quella dello spettro audio, regolando l’audio così velocemente che l’orecchio lo percepisce in modo fastidioso.
Questo fastidio può emergere se le costanti di tempo di compressori o limiter sono impostate in modo scorretto. Il risultato può assumere l’aspetto di un audio che “respira”, a causa di una compressione molto profonda unita a costanti di tempo molto rapide. So che alcuni nel nostro settore apprezzano o preferiscono questa firma sonora, ma la ricerca ha dimostrato che questo suono tende a far allontanare la maggior parte degli ascoltatori, soprattutto donne. Sì, un processing impostato in questo modo genererà un audio estremamente denso. Tuttavia, quando il cervello percepisce un segnale denso, reagisce negativamente e inizia a disimpegnarsi. Nel mio ascolto personale, lo definisco “audio costipato”.
I sistemi di Clipper
Sebbene la discussione finora si sia concentrata sugli aspetti dinamici del processing, la massa critica si manifesta nella sezione finale, solitamente chiamata final limiter o clipper. Le tecniche di elaborazione digitale del segnale hanno migliorato la funzione di limiting finale “di molte volte” rispetto alle controparti analogiche, ma esistono ancora limiti a ciò che questi sistemi possono fare… fino ad ora!
Come accennato in precedenza, disponiamo di meccanismi in grado di monitorare, controllare, sopprimere e filtrare la THD. Queste funzioni consentono di ottenere una loudness competitiva e di ridurre al minimo gli effetti collaterali della distorsione. Pur essendo un grande vantaggio, non fanno nulla per ridurre il fastidio dovuto all’IMD generata dal clipper.
La sfida nasce quando l’azione del clipper su varie parti dello spettro spinge il resto dell’audio dentro e fuori dal sistema di clipping, indipendentemente dal fatto che necessitasse o meno di essere tagliato (troncato). Poiché tutta questa attività avviene alla velocità del segnale audio — quindi con attacco istantaneo e rilascio istantaneo — l’IMD generata può accumularsi in modo significativo. Nei nostri sistemi broadcast è solitamente impiegata una rete di pre-enfasi, che incrementa la gamma delle alte frequenze. Questo spinge ulteriormente le frequenze di presenza e di brillantezza in un limiting pesante, quasi costante. Il risultato può essere molto denso e fastidioso all’ascolto.
Entra in scena la FFT
Nel corso degli anni, gli algoritmi di processing si sono evoluti utilizzando la Fast Fourier Transform (FFT). Ci riferiamo a questo approccio come gestione del segnale nel dominio della frequenza, in contrapposizione al dominio del tempo. I segnali nel dominio del tempo sono onde continue — nel tempo, come si vedrebbe su un oscilloscopio — mentre i segnali nel dominio della frequenza sono indipendenti dal tempo e gestiti all’interno di frequency bins. Grazie a un design creativo, è stato possibile ridurre ulteriormente la THD nei sistemi di clipping broadcast. Tuttavia, il problema del fastidio da IMD rimane, e con la FFT può persino peggiorare. Come? Continua a leggere!
Uno dei vantaggi della FFT è la capacità di gestire lo spettro in modo estremamente preciso. La FFT è una funzione nel dominio della frequenza che utilizza molti “bin” per memorizzare e gestire le informazioni audio. Questi bin sono definiti come potenze di due. Ad esempio, possiamo creare una FFT con 1024 bin, cioè 2 elevato alla decima. Considerando lo spettro audio di 15 kHz per l’FM stereo e un sample rate di 192 kHz, dividiamo il sample rate per 1024. In questo esempio, 192 kHz diviso 1024 produce bin larghi 187,5 Hz. Come si può vedere, è una risoluzione molto precisa che offre grande flessibilità su ciò che può essere gestito e regolato lungo l’intero spettro audio. Inoltre, fornisce capacità di filtraggio eccezionali. Fin qui tutto bene… o forse no!
Come spesso accade nella vita, non esistono pasti gratis. Lo stesso vale qui. Sebbene la FFT offra un ottimo filtraggio e una gestione efficace della THD, soffre in termini di trasparenza nella gestione dei transienti audio. Per esempio, prendiamo una traccia ben registrata degli Steely Dan, Babylon Sister. Si apre con quattro colpi di tom-tom molto distinti, ricchi di transienti. Quando passano attraverso un sistema di clipping basato su FFT, i transienti dei tamburi si perdono o risultano attenuati, quando invece dovrebbero rimanere trasparenti. Ciò accade per la natura stessa della trasformata FFT e, senza entrare in un gergo tecnico estremamente profondo, non è possibile preservare la risposta ai transienti più netti. Questo fenomeno è noto come transient smearing e influisce anche sulla percezione dell’IMD. Sebbene la FFT garantisca una THD molto bassa, il livello di IMD rimane comunque in una fascia sottilmente fastidiosa.
Un nuovo approccio
Nonostante ricerche estese sui metodi FFT, non è stato possibile eliminare la perdita di transienti (transient distortion) né l’IMD. Considerando che il principale vantaggio della FFT è il filtraggio preciso tramite i bin, è stato ideato un nuovo approccio nel dominio del tempo. Questo replica i benefici del filtraggio FFT, aggiungendo nuovi elementi algoritmici per sopprimere l’IMD generata dal clipper. È nato un sistema completamente nuovo che offre eccellente THD… E… soppressione dell’IMD… E… preservazione della trasparenza dei transienti! Il risultato è una firma sonora aperta, pulita e competitivamente forte, senza distorsione dei transienti. In termini semplici, l’audio è più facile da ascoltare e molto naturale. Questo favorirà un ascolto più lungo, poiché la ragione sottile che induce a cambiare stazione è stata rimossa.
L’introduzione di Omnia.XII impiega questo nuovo sistema di clipping e aggiunge nuovi algoritmi nelle sezioni di compressione e limiting dinamico, che monitorano e riducono l’IMD. Il risultato è un nuovo approccio al processing che offre alta qualità, loudness competitivo e nessuna delle fastidiose caratteristiche sonore generate da altri sistemi. Questo alza l’asticella nel migliorare la listener retention, con conseguente aumento del TSL, poiché abbiamo rimosso i fattori di tune‑out.




