Une accessibilité robuste, intuitive et sans exclusive à l'information est le fil conducteur des travaux de recherche initiés au LARIHS : Laboratoire de Recherche en Interaction Humain-Système, fondé en 2004 par le professeur Sid-Ahmed Selouani, professeur en Gestion de l'information à l'UMCS. La problématique de l'interaction Humain-Système y est abordée sous tous ses aspects : formels, applicatifs, cognitifs, etc. Cette infrastructure a permis la concrétisation de projets novateurs subventionnés par des institutions publiques provinciales et fédérales et par des organismes privés.
Activités récentes
Projets Internationaux
Années couvertes: 2010-2013 Résumé du projet : The goal of the program is to establish sustainable partnerships between Canadian and European higher-education institutions in the field of information management that will facilitate the acquisition of skills required to meet the challenges of information management in the context of the global knowledge-based economy. Students will have the opportunity to study abroad at participating institutions and/or intern with an organization in the Information Technology and/or Information Management sector. This will allow the students to develop practical and academic knowledge related to their particular field of expertise, within an international context.
Projets de recherche
Années couvertes: 2006-2007 Résumé du projet : Le projet global vise à réaliser un système d'assistance aux personnes francophones atteintes de divers troubles du langage incluant par exemple la dysarthrie, le bégaiement et l'aphasie. Ces difficultés d'origine cérébrale le plus souvent, se manifestent par des altérations de la voix, de l'articulation, de la déglutition et autres fonctions qui peuvent altérer complètement une situation de communication à cause de l'inintelligibilité du message produit. Le système-prothèse que nous visons est constitué de deux modules. Le premier module a pour rôle l'apprentissage de la parole altérée sur des corpus de données segmentés et étiquetés en phonèmes, puis l'identification de ces phonèmes par les modèles de Markov cachés. Le deuxième module a pour tâche l'analyse linguistique (lexicale et syntaxique) puis la synthèse de la parole reconnue à partir du texte. Pour atteindre cet objectif, il est nécessaire de disposer d'enregistrements audio de patients francophones atteints de troubles du langage. La présente demande de financement concerne la collecte de corpus et la réalisation des deux modules : celui de l'apprentissage-reconnaissance et celui de la synthèse naturelle.
Années couvertes: 2010-2013 Résumé du projet : La recherche principale proposée se caractérise par la convergence-intégration de technologies novatrices pour proposer une solution améliorant la gestion des opérations dans l'industrie manufacturière. Elle se base sur des concepts avancés en traitement du signal qui améliorent la robustesse et l'efficacité de l'interaction Personne-Système via des interfaces utilisant des agents de reconnaissance vocale et de synthèse de la parole. Ces agents vocaux communiqueront avec un réseau maillé d'étiquettes intelligentes RFID pour traiter plus rapidement l'information véhiculée par ces étiquettes. Les sujets de recherche potentiels couvrent plusieurs domaines de pointe dont les principaux sont : les applications réseaux omniprésents et complexes dans la mesure où l'objectif est de permettre un accès rapide à une information omniprésente dans un réseau maillé d'étiquettes RFID. Un opérateur pourra localiser très rapidement un produit en interrogeant, tout étant en mobilité (microphone sans fil) un intergiciel capable de lui fournir la réponse par voix synthétique. L'opérateur pourra également transmettre en temps réel l'information sur le produit via ce dispositif mains-libres axé sur le réseau d'étiquettes RFID et voix. La recherche touche l'aspect du traitement des signaux intelligents en proposant une nouvelle technique de rehaussement en milieu bruité (manufacturier). Ces signaux seront transmis via un intergiciel à un réseau omniprésent d'étiquettes RFID qui sont des dispositifs radiofréquence sans fil. Les réseaux adaptatifs ou cognitifs par l'intégration d'une nouvelle technique d'adaptation des agents conversationnels au profil de l'utilisateur. Grâce à ce système l'utilisateur évitera les longues séances d'apprentissage de l'engin de reconnaissance. Une automatisation de l'apprentissage est prévue par un mécanisme modélisant le profil et les préférences de l'utilisateur (opérateur dans le milieu industriel). Un module de dialogue Humain-Système, basé sur une approche novatrice utilisant le formalisme AIML (Artificial Intelligence Markup Language) permettra une interaction verbale bilingue : Anglais-Français plus naturelle.
Années couvertes: 2006-2007 Résumé du projet : Le projet vise l'amélioration de l'interaction entre l'utilisateur et une plateforme multimédia dotée d'un système de dialogue oral Homme-Machine dans une application de commerce électronique. Il s'agira de proposer des améliorations à deux niveaux. Au premier niveau, le principe novateur des techniques que nous proposons consiste à « manipuler génétiquement », au sens des algorithmes évolutionnaires, les différents paramètres mis en jeu dans le processus de reconnaissance ou d'adaptation au locuteur à savoir les éléments de la matrice d'observation et la matrice globale de transformation. Au second niveau, il s'agira de proposer un modèle de dialogue Homme-Machine à la fois cognitif et formel, exploitable dans des applications de commerce électronique. Nous examinerons la manière dont un système de dialogue peut gérer, exploiter, identifier puis formaliser l'implicite dans ce type de communication d'affaires, afin d'accroître à la fois l'accessibilité et les capacités de compréhension de la machine. Le principal objectif est d'étendre les facultés multimodales via un dialogue formel aux solutions logicielles que nous avons développées. Grâce au produit visé, les clients finaux devraient pouvoir transmettre des données par le biais de plusieurs modalités (la parole et/ou le clavier, mais aussi la souris ou l'écran). La plateforme se chargeant en retour de synthétiser la réponse adéquate dans le format adéquat : audio, plein texte, vidéo/ou graphique. Ces modes peuvent être couplés les uns aux autres, mais également utilisés indépendamment. Les applications envisageables sont fortement génératrices de valeur pour les utilisateurs, a fortiori pour ceux ayant une incapacité physique motrice et/ou visuelle.
Années couvertes: 2007-2008 Résumé du projet : Le projet proposé vise la réalisation d'un système de greffe logicielle qui permettra d'améliorer l'intelligibilité de la parole des personnes francophones ayant des difficultés d'élocution. Ces difficultés peuvent être d'origine accidentelle ou innée. Pour atteindre cet objectif, il est nécessaire de disposer d'enregistrements audio de patients francophones atteints de troubles du langage. Nous avons organisé des séances d'enregistrements audio auprès de patients francophones habitant principalement la Péninsule acadienne. Ceci, afin de recueillir des données qui permettront d'améliorer les interfaces vocales. Les comités d'éthique de l'Université de Moncton, des régies de la santé Beauséjour, Restigouche et Acadie-Bathurst ont donné leur approbation pour la collecte de données auprès de patients francophones. Le projet s'articule principalement autour de l'intégration du système de synthèse TD-PSOLA mis à la disposition des utilisateurs ayant des troubles d'élocution. Celui-ci se charge de synthétiser de façon intelligible le texte issue de la parole reconnue prononcée par une personne ayant des difficultés d'élocution tels que le bégaiement, la dysarthrie, cancer de la langue, etc. La vois synthétisée (corrigée) est très proche de la voix originale de ces personnes. Ce dernier objectif a été atteint grâce à un module qui adapte les différents paramètres prosodiques (fréquence fondamentale, durée, intensité).
Années couvertes: 2006 Résumé du projet : L'objectif de l'étude est d'évaluer les impacts de l'adoption de la large bande au Nouveau-Brunswick rural. Dans le cadre de l'étude plus large, nous évaluons les impacts sociaux, économiques, institutionnels et culturels dans la région de Shippagan, Le Goulet, Lamèque et Ste Marie. La recherche est menée par un partenariat de toutes les universités du Nouveau-Brunswick. Cette étude implique des sondages auprès de foyers et d'entreprises sur divers aspects. Elle implique aussi une entrevue avec des représentants d'organisations, de groupes et d'institutions (écoles, établissements médicaux, bureaux du gouvernement et autres) pour en apprendre davantage sur « si » et « comment » le large bande a été adopté et utilisé, et quels impacts, s'il y en a, en sont découlés.
Période couverte: 2004-2009 Résumé du projet : L'objectif recherché à travers ce projet est la mise en place d'une infrastructure de recherche (LARIHS : Laboratoire de Recherche en Interactivité Homme-Système) et l'acquisition de l'équipement nécessaire pour mener divers travaux liés à la conception et à la réalisation de plateformes qui permettent une interactivité efficace, robuste et proche du naturel entre l'usager et le système (centre d'appel, portail Web, dispositif embarqué,...) et ce, quelles que soient les capacités ou les possibilités d'interaction de l'usager. Il est attendu à travers cette infrastructure, le développement de produits qui sont le type d'outils recherchés tant par les individus que par les institutions et entreprises opérant dans le domaine des affaires électroniques et qui visent une accessibilité augmentée. Les projets initiés s'appuieront sur les technologies langagières dans le but de constituer une alternative efficace lorsque l'usage d'un système interactif traditionnel est rendu inefficient en raison de difficultés de représentation des commandes, de l'inadéquation des modalités ou d'un handicap sensoriel ou moteur des utilisateurs. Ceci sans occulter les problèmes inhérents à la variabilité de la parole spontanée (caractéristiques du locuteur, contexte d'usage, mode d'élocution). La composante matérielle consiste en quatre stations de travail adaptées, d'un ordinateur portable doté de capacité de stockage amovible, d'une imprimante laser, de deux DAT (enregistreurs numériques) et de leurs accessoires, de cinq microphones sans fil, d'un afficheur Braille, et d'une baie multiple de duplication CD. Les besoins logiciels sont constitués des systèmes de développement d'environnements applicatifs et de bases de données : VisualStudio .Net, IBM ViaVoice (différents Kits de développement de reconnaissance et de synthèse), VoiceXML, Matlab (différents toolbox), un logiciel de script, Speech Studio, la suite Microsoft Office et des bases de données : Hub5 et Aurora 2.0. Le laboratoire est actuellement opérationnel à l'UMCS.
Montant: 216000$ Résumé du projet : Le projet proposé vise la réalisation d'un système de greffe logicielle qui permettra d'améliorer l'intelligibilité de la parole des personnes francophones ayant des difficultés d'élocution. Ces difficultés peuvent être d'origine accidentelle ou innée. Pour atteindre cet objectif, il est nécessaire de disposer d'enregistrements audio de patients francophones atteints de troubles du langage. Nous avons organisé des séances d'enregistrements audio auprès de patients francophones habitant principalement la Péninsule acadienne. Ceci, afin de recueillir des données qui permettront d'améliorer les interfaces vocales. Les comités d'éthique de l'Université de Moncton, des régies de la santé Beauséjour, Restigouche et Acadie-Bathurst ont donné leur approbation pour la collecte de données auprès de patients francophones. Le projet s'articule principalement autour de l'intégration du système de synthèse TD-PSOLA mis à la disposition des utilisateurs ayant des troubles d'élocution. Celui-ci se charge de synthétiser de façon intelligible le texte issue de la parole reconnue prononcée par une personne ayant des difficultés d'élocution tels que le bégaiement, la dysarthrie, cancer de la langue, etc. La vois synthétisée (corrigée) est très proche de la voix originale de ces personnes. Ce dernier objectif a été atteint grâce à un module qui adapte les différents paramètres prosodiques (fréquence fondamentale, durée, intensité).
Résumé du projet : Dans les configurations utilisant l'interaction Personne-Système verbale, des insuffisances sont toujours constatées, plus particulièrement autour des trois aspects suivants que nous ciblons dans le présent projet : Le projet est articulé autour de trois axes complémentaires visant une Interaction Personne-Système Verbale (IPSV) robuste et naturelle sur des dispositifs de télécommunications mobiles. Le premier axe propose une nouvelle approche pour la reconnaissance de la parole distribuée basée sur un paradigme multi-flots de données (multi-stream paradigm) optimisé par algorithmes génétiques. Le deuxième axe vise l'établissement d'un nouveau modèle de dialogue Personne-Système basé sur la coopération. Le troisième axe, applicatif, a pour objectif l'assistance aux personnes atteintes de troubles d'élocution (aphasiques, dysarthriques, etc.) en mettant à leur disposition, lorsqu'ils communiquent avec un centre d'appel par exemple, un système-prothèse générant de la parole intelligible à leur place.
Années couvertes: 2006-2009 Résumé du projet : Nous proposons une nouvelle technique de débruitage et de séparation de sources d'informations indépendantes dans le contexte de télécommunications mobiles. En effet, les systèmes actuels de reconnaissance vocale sont incapables de distinguer entre deux locuteurs (sources) parlant avec le même niveau de volume. L'être humain est par contre capable d'écouter et de comprendre le message de son interlocuteur même si celui-ci est noyé dans du bruit ou dans un flots de parole provenant d'autres locuteurs (effet cocktail party). La solution au problème de la séparation de sources est fortement liée aux modèles du mélange des sources qui représentent les interactions entre les sources et les signaux reçus à la sortie des capteurs. La méthode proposée s'interessera à la séparation sous l'hypothèse d'un mélange convolutif dans le réseau GSM.
Période couverte: 2004-2007 Résumé du projet : projet vise la réalisation de systèmes de reconnaissance robustes aux changements intempestifs de l'environnement acoustique et du locuteur, tout en imposant le moins de contraintes possible à l'utilisateur. Le principe novateur des techniques proposées consiste à utiliser les algorithmes génétiques pour optimiser différents paramètres mis en jeu dans le processus de reconnaissance ainsi que dans celui de l'adaptation au locuteur. Ce choix est justifié par le fait qu'aucune connaissance a priori sur le bruit, ni hypothèse préalable sur le locuteur, ne sont nécessaires pour réaliser l'adaptation. Par ailleurs, le champ d'investigation des solutions d'optimisation est plus ouvert. Ces techniques robustes seront intégrées (validées) dans une plate-forme multimédia disposant de fonctionnalités vocales et dédiée à l'apprentissage électronique (e-apprentissage). Dans le cadre de ce projet, je m'intéresse à l'adaptation du système de reconnaissance lui même, au moyen d'un auto-ajustement des distributions gaussiennes d'émission. Les deux démarches, à savoir : un rehaussement des données et une auto-adaptation du système, sont complémentaires et seront incluses dans un système unique afin d'appréhender le problème de robustesse des SRAP d'une manière plus globale, contrairement aux approches classiques. L'optimisation s'effectuera par algorithmes génétiques. Une série d'expériences permettra la formalisation de l'algorithme d'optimisation ainsi que la fixation des paramètres génétiques à savoir : le taux de croisement, le taux de mutation, la méthode de sélection, le nombre de générations, le critère d'arrêt, la fonction d'évaluation, le type de codage et la taille de la population.
Années couvertes: 2006-2007 Résumé du projet : Il s'agit de développer un nouveau codeur-décodeur (codec) destiné à une application de la reconnaissance vocale distribuée (DSR : Distributed Speech Recognition) utilisant des protocoles Internet (IP), et sera conçu pour intégrer l'ensemble des applications propres aux nouvelles technologies à large bande communément appelée réseaux de nouvelle génération (NGN: Next Generation Networks). Cette nouvelle architecture repose sur quelques principes généraux à savoir un réseau principal partagé pour tous types de services et d'accès, des technologies de transport par paquets, des interfaces normalisées ouvertes entre les différentes couches du réseau, des supports d'interface utilisateur adaptables et des réseaux d'accès de type et d'accès variables. Ce Codec s'inscrit également dans la perspective de la convergence des télécommunications fixes et mobiles sur des réseaux initiaux et des plateformes de service techniquement similaires. Le codec développé sera compatible pour intégrer le projet de partenariat de troisième génération (3GPP) qu'il soit celui relatif aux réseaux 3GPP élaboré sur GSM (européens), ou 3GPP2 élaboré sur CDMA (Nord-Américains). De ce fait, notre codec s'inscrira donc dans une perspective mondiale, qui préfigurera du monde multimédia mobile de demain. Il offre des caractéristiques fondamentalement avancées en termes d'interactivité avec les utilisateurs. Il y a par conséquent un avantage évident à profiter d'un marché de masse réellement convergeant basé sur les plateformes vocales intelligentes. Par ailleurs, le développement de notre codec compatible NGN a lieu au moment opportun car il existe une forte demande de l'industrie pour des services multimédia de nouvelle génération pour des accès sans fils. Comparativement au standard de DSR actuel, notre système utilisant le paradigme multi-variable vise une meilleure compression de débit ainsi que de meilleures performances en termes de taux de reconnaissance pour de faibles rapports signal sur bruit (RSB).