Les développement de systèmes pouvant répondre à une requête concernant le contenu informationnel d'un signal sonore, comme les moteurs de recherche multimédia, est aujourd'hui en plein essor. L'extraction de l'information nécessaire à l'ordinateur pour prendre une décision, se fait classiquement en caractérisant le signal sonore par une série de descripteurs audio. Si leur choix est souvent empirique, le triplet fréquence fondamentale/énergie/structure fréquentielle se démarque néammoins. Il permet de reconstruire un signal semblable à l'original, sur le plan perceptif, captant ainsi l'information contenue dans le signal. Une synthèse bibliographique montre que l'estimation de ce triplet de descripteurs est particulièrement difficile dans le cas polyphonique et nécessite souvent de fortes hypothèses structurelles sur le signal traité. Les signaux considérés dans cette thèse, sont issus de la superposition et de l'interaction d'un nombre inconnu et variable dans le temps de sources sonores, ces dernières pouvant être de nature différente : parole, musique, ambiance urbaine...Nous avons construit un algorithme séquentiel (filtrage particulaire) pour estimer le nombre de sources et leurs caractéristiques, au cours du temps. Les méthodes de Monte-Carlo séquentielles permettent de s'affranchir d'hypothèses simplificatrices et de prendre en compte un large panel de signaux sonores. L'estimation est effectuée dans un cadre bayésien, à la fois rigoureux et flexible, avec lequel bon nombre des algorithmes existants peuvent être combinés. Après une application à la transcription automatique de la musique, les descripteurs sont utilisés pour la caractérisation de l'effet de métabole.