Tato diplomová práce se zabývá úlohou automatického generování interpunkce (automatic punctuation restoration - APR) v systémech pro automatický přepis řeči, které zpracovávají v reálném čase streamovaná data, například titulkují televizní vysílání. Konkrétně bylo cílem práce navrhnout APR modul, který bude do výstupu rozpoznávacího systému doplňovat tečky, čárky a otazníky. Zároveň bude dostatečně rychlý pro režim online zpracování a bude pracovat s co nejmenším zpožděním a to bez využití prosodických příznaků počítaných z řečového signálu. Výsledný navržený APR modul využívá předtrénovaný jazykový model ELECTRA-Small, který je založený na architektuře typu transformer. Experimentální část práce obsahuje porovnání výsledků dosažených použitím několika dalších architektur a vyšetřuje vliv různých hyperparametrů na proces trénování. V poslední části práce je navržený APR modul porovnán s jiným, již existujícím modulem, který používá kombinaci textových a prosodických příznaků. Z výsledků porovnání vyplývá, že APR modul navržený v této diplomové práci zmíněný modul překonává, splňuje všechny požadavky zadání a dosahuje velmi dobrých výsledků, které jsou plně použitelné v praxi. Novost a vlastní přínos této diplomové práce podtrhuje skutečnost, že navržená metoda a dosažené výsledky byly přijaty k publikaci na prestižní mezinárodní konferenci Interspeech 2023.
Anotace v angličtině
This thesis deals with the task of automatic punctuation restoration (APR) in automatic speech recognition systems that process real-time streaming data, such as subtitling television broadcasts. Specifically, the goal of this work was to design an APR module that will add periods, commas and question marks to the output of the recognition system. At the same time, it will be fast enough for the online processing mode and work with the least possible delay, without using prosodic features computed from the speech signal. The resulting proposed APR module uses the pre-trained ELECTRA-Small language model, which is based on a transformer-type architecture. The experimental part of the thesis compares the results obtained using several other architectures and investigates the effect of different hyperparameters of the training process. In the last part of the work, the proposed APR module is compared with another existing module that uses a combination of textual and prosodic features. The comparison results show that the APR module proposed in this thesis outperforms the mentioned module, fulfills all the requirements of the assignment and achieves very good results that are fully applicable in practice. The novelty and original contribution of this thesis are underlined by the fact that the proposed method and yielded results were accepted for publication at the prestigious international conference Interspeech 2023.
Tato diplomová práce se zabývá úlohou automatického generování interpunkce (automatic punctuation restoration - APR) v systémech pro automatický přepis řeči, které zpracovávají v reálném čase streamovaná data, například titulkují televizní vysílání. Konkrétně bylo cílem práce navrhnout APR modul, který bude do výstupu rozpoznávacího systému doplňovat tečky, čárky a otazníky. Zároveň bude dostatečně rychlý pro režim online zpracování a bude pracovat s co nejmenším zpožděním a to bez využití prosodických příznaků počítaných z řečového signálu. Výsledný navržený APR modul využívá předtrénovaný jazykový model ELECTRA-Small, který je založený na architektuře typu transformer. Experimentální část práce obsahuje porovnání výsledků dosažených použitím několika dalších architektur a vyšetřuje vliv různých hyperparametrů na proces trénování. V poslední části práce je navržený APR modul porovnán s jiným, již existujícím modulem, který používá kombinaci textových a prosodických příznaků. Z výsledků porovnání vyplývá, že APR modul navržený v této diplomové práci zmíněný modul překonává, splňuje všechny požadavky zadání a dosahuje velmi dobrých výsledků, které jsou plně použitelné v praxi. Novost a vlastní přínos této diplomové práce podtrhuje skutečnost, že navržená metoda a dosažené výsledky byly přijaty k publikaci na prestižní mezinárodní konferenci Interspeech 2023.
Anotace v angličtině
This thesis deals with the task of automatic punctuation restoration (APR) in automatic speech recognition systems that process real-time streaming data, such as subtitling television broadcasts. Specifically, the goal of this work was to design an APR module that will add periods, commas and question marks to the output of the recognition system. At the same time, it will be fast enough for the online processing mode and work with the least possible delay, without using prosodic features computed from the speech signal. The resulting proposed APR module uses the pre-trained ELECTRA-Small language model, which is based on a transformer-type architecture. The experimental part of the thesis compares the results obtained using several other architectures and investigates the effect of different hyperparameters of the training process. In the last part of the work, the proposed APR module is compared with another existing module that uses a combination of textual and prosodic features. The comparison results show that the APR module proposed in this thesis outperforms the mentioned module, fulfills all the requirements of the assignment and achieves very good results that are fully applicable in practice. The novelty and original contribution of this thesis are underlined by the fact that the proposed method and yielded results were accepted for publication at the prestigious international conference Interspeech 2023.
Seznamte se s problematikou automatického generování interpunkce v systémech rozpoznávání řeči a proveďte rešerši existujících metod.
Na základě provedené rešerše zvolte state-of-the art metodu, která umožní automaticky doplňovat interpunkci v on-line systému pro přepis českého jazyka. Zaměřte se zejména na metody, které využívají neuronové sítě a pracují pouze s textovým výstupem z rozpoznávacího systému.
Zvolenou metodu optimalizujte na vhodné vývojové datové sadě vzhledem k nejdůležitějším výkonovým parametrům a hyperparametrům zvolené architektury.
Výsledný model s nejlepším nastavením parametrů ověřte na vhodné testovací množině a porovnejte dosažené výsledky s výsledky dostupnými v literatuře a případně také s podobnými existujícími systémy.
Zásady pro vypracování
Seznamte se s problematikou automatického generování interpunkce v systémech rozpoznávání řeči a proveďte rešerši existujících metod.
Na základě provedené rešerše zvolte state-of-the art metodu, která umožní automaticky doplňovat interpunkci v on-line systému pro přepis českého jazyka. Zaměřte se zejména na metody, které využívají neuronové sítě a pracují pouze s textovým výstupem z rozpoznávacího systému.
Zvolenou metodu optimalizujte na vhodné vývojové datové sadě vzhledem k nejdůležitějším výkonovým parametrům a hyperparametrům zvolené architektury.
Výsledný model s nejlepším nastavením parametrů ověřte na vhodné testovací množině a porovnejte dosažené výsledky s výsledky dostupnými v literatuře a případně také s podobnými existujícími systémy.
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\theenumi]}
Cristopher Bishop, Pattern Recognition and Machine Learning. Springer, 2006.
Vasile Păiş and Dan Tufiş, Capitalization and punctuation restoration: a survey. Artif. Intell. Rev. 55, 3 (Mar 2022), 1681–1722. https://doi.org/10.1007/s10462-021-10051-x
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\theenumi]}
Cristopher Bishop, Pattern Recognition and Machine Learning. Springer, 2006.
Vasile Păiş and Dan Tufiş, Capitalization and punctuation restoration: a survey. Artif. Intell. Rev. 55, 3 (Mar 2022), 1681–1722. https://doi.org/10.1007/s10462-021-10051-x
Přílohy volně vložené
-
Přílohy vázané v práci
ilustrace, grafy, schémata, tabulky
Převzato z knihovny
Ano
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Průběh obhajoby je zveřejněn pouze přihlášenému uživateli.