This paper describes a novel approach to visual speech recognition. The intensity of each pixel in an image sequence is considered as a function of time. One-dimensional wavelet and Fourier transform is applied to this intensity-versus-time function to model the lip movements. We present experimental results performed on two databases of English digits and letters, respectively.Im vorliegenden Beitrag wird ein neuartiger Ansatz zur visuellen Spracherkennung (Lippenlesen) vorgestellt. Hierfur werden die Intensitaten eines jeden Pixels einer Bildsequenz als eine Kurvenfunktion der Zeit interpretiert. Auf diese Funktion wenden wir eindimensionale Wavelet- und Fourier-Transformation an, um kompakte Merkmale zur Modellierung der Lippenbewegungen zu gewinnen. Es werden experimentelle Ergebnisse an zwei Bilddatensammlungen bestehend aus englischen Ziffern bzw. Buchstaben prasentiert.Cet article decrit une approche nouvelle pour la reconnaissance visuelle de la parole. L'intensite de chaque pixel dans une sequence d'images est consideree comme fonction du temps. Les transformations de Fourier et par ondelettes mono-dimensionnelles sont appliquees a cette fonction temporelle de l'intensite pour modeliser les mouvements des levres. Nous presentons des resultats experimentaux obtenus sur deux bases de donnees, respectivement de chiffres et de lettres, en anglais.