Portál TUL - Prohlížení

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Tisk/export:

Export dat do formátu PDF - který můžete pohodlně vytisknout...

Tento odkaz můžete zkopírovat a použít například jako záložku prohlížeče pro zobrazení aktuální pozice v Prohlížení IS/STAG.

Nepřihlášenému uživateli se zobrazují pouze již odevzdané práce.

Osobní čísla studentů se zobrazují pouze přihlášenému uživateli.

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Nalezeno 1 záznamů Tisk Export do Xls URL na seznam

Příjmení (rod. přijm.)	Jméno	Název	Stav práce		Vedoucí/školitelé	Oponenti	Typ práce	Dat. obhaj.	Název
Student	Typ práce	-	-	-	-	-	-	-	-	-	-
Šafařík	David	Tvorba modelů pro přepis řeči v italštině			Červa Petr	Kolorenč Jan	bakalářská	14.06.2022	Tvorba modelů pro přepis řeči v italštině
David Šafařík	bakalářská	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX

Informace o kvalifikační práci Tvorba modelů pro přepis řeči v italštině

Základní údaje

Anotace
Dokument, ke kterému přistupujete, podléhá autorskému zákonu. Jeho porušením se můžete vystavit trestnímu postihu!
Jméno	Šafařík David
Akad. rok	2021/2022
Zadávající pracoviště	ITE
Datum obhajoby	14. 6. 2022
Typ práce	bakalářská
Stav práce	Dokončená práce s úspěšnou obhajobou (DUO).
Úplnost vyplnění požadovaných údajů	- Všechny požadované údaje o této VŠKP jsou vyplněny.
Hlavní téma	Tvorba modelů pro přepis řeči v italštině
Hlavní téma v angličtině	Creation of models for speech transcription in Italian
Název dle studenta	Tvorba modelů pro přepis řeči v italštině
Název dle studenta v angličtině	Creation of models for speech transcription in Italian
Souběžný název	-
Podnázev	-
Vedoucí	Červa Petr, doc. Ing. Ph.D.
Oponent	Kolorenč Jan, Ing. Ph.D.
Anotace	Tato bakalářská práce se zabývá tvorbou modelů pro přepis řeči v italštině. Rešerše této práce se zabývá popisem současného stavu systémů pro automatické rozpoznávání řeči (ASR). Automatické rozpoznávání řeči je nejprve popsáno obecně, následně se popis zaměřuje na modulární architekturu a end-to-end (E2E) architekturu systémů ASR. Následující kapitola je věnována popisu italštiny z obecného, gramatického, ale převážně z fonetického pohledu. Praktická část práce popisuje nejprve vývoj modulárního systému ASR. Postupně je tak popsáno vytvoření jednotlivých dílčích částí modulárního systému (výslovnostní slovník, jazykový model, akustický model). Dále je popsán vývoj E2E systému ASR, který zahrnuje popis shromáždění a úpravy volně dostupných řečových databází pro trénování systému a následně popis tvorby vlastní trénovací databáze k rozšíření trénovací množiny dat. Na konec jsou uvedeny výsledky vyhodnocení vytvořených modelů pro přepis řeči v italštině. Nejlepší vytvořený model dosahuje přesnosti přepisu 87,3 % na nahrávkách z nezávislé ručně anotované testovací databáze. Zároveň je výsledný systém ASR porovnán s komerčním systémem ASR, který je k dispozici v rámci cloudové platformy MS Azure.
Anotace v angličtině	This bachelor thesis is concerned with the creation of models for speech transcription in the Italian language. The research part of this thesis describes the current state of systems for automatic speech recognition (ASR). It begins with a general description of ASR, after which the modular and end-to-end (E2E) architectures of ASR systems are described. The next chapter describes the Italian language from the general, gramatical but mostly phonemic viewpoint. The practical part of this thesis begins with the description of the ASR modular system. The creation of all the parts needed to create the modular system is described (pronounciation lexicon, language model, acoustic model). Afterwards the development of the E2E ASR system is described which encompasses gathering and modification of free language databases followed by a description of the creation of a speech database for further training of the E2E system. Finally the results of the evaluation of created models are presented. The best created model has an accuracy of transcription of 87.3 % evaluated on an independent set of recordings annotated by hand. The final ASR system is also compared to the commercial ASR system within the cloud framework Microsoft Azure.
Klíčová slova	automatické rozpoznávání řeči, skrytý Markovský model, end-to-end, hluboké neuronové sítě, hluboké učení, italština, jazykové modelování, akustické modelování
Klíčová slova v angličtině	Automatic Speech Recognition, hidden Markov model, end-to-end, deep neural networks, deep learning, Italian, language model, acoustic model
Rozsah průvodní práce	52 s.
Jazyk	CZ
Tato bakalářská práce se zabývá tvorbou modelů pro přepis řeči v italštině. Rešerše této práce se zabývá popisem současného stavu systémů pro automatické rozpoznávání řeči (ASR). Automatické rozpoznávání řeči je nejprve popsáno obecně, následně se popis zaměřuje na modulární architekturu a end-to-end (E2E) architekturu systémů ASR. Následující kapitola je věnována popisu italštiny z obecného, gramatického, ale převážně z fonetického pohledu. Praktická část práce popisuje nejprve vývoj modulárního systému ASR. Postupně je tak popsáno vytvoření jednotlivých dílčích částí modulárního systému (výslovnostní slovník, jazykový model, akustický model). Dále je popsán vývoj E2E systému ASR, který zahrnuje popis shromáždění a úpravy volně dostupných řečových databází pro trénování systému a následně popis tvorby vlastní trénovací databáze k rozšíření trénovací množiny dat. Na konec jsou uvedeny výsledky vyhodnocení vytvořených modelů pro přepis řeči v italštině. Nejlepší vytvořený model dosahuje přesnosti přepisu 87,3 % na nahrávkách z nezávislé ručně anotované testovací databáze. Zároveň je výsledný systém ASR porovnán s komerčním systémem ASR, který je k dispozici v rámci cloudové platformy MS Azure.
Anotace v angličtině
This bachelor thesis is concerned with the creation of models for speech transcription in the Italian language. The research part of this thesis describes the current state of systems for automatic speech recognition (ASR). It begins with a general description of ASR, after which the modular and end-to-end (E2E) architectures of ASR systems are described. The next chapter describes the Italian language from the general, gramatical but mostly phonemic viewpoint. The practical part of this thesis begins with the description of the ASR modular system. The creation of all the parts needed to create the modular system is described (pronounciation lexicon, language model, acoustic model). Afterwards the development of the E2E ASR system is described which encompasses gathering and modification of free language databases followed by a description of the creation of a speech database for further training of the E2E system. Finally the results of the evaluation of created models are presented. The best created model has an accuracy of transcription of 87.3 % evaluated on an independent set of recordings annotated by hand. The final ASR system is also compared to the commercial ASR system within the cloud framework Microsoft Azure.
Klíčová slova
automatické rozpoznávání řeči, skrytý Markovský model, end-to-end, hluboké neuronové sítě, hluboké učení, italština, jazykové modelování, akustické modelování
Klíčová slova v angličtině
Automatic Speech Recognition, hidden Markov model, end-to-end, deep neural networks, deep learning, Italian, language model, acoustic model
Zásady pro vypracování	Seznamte se s problematikou automatického rozpoznávání řeči z pohledu akustického a jazykového modelování a s metodami pro vyhodnocování úspěšnosti rozpoznávání řeči. Proveďte rešerši dostupných zdrojů dat umožňujících vytvořit akustický a jazykový model pro italštinu (jedná se o akustická a textová data, slovníky a nástroje pro fonetickou transkripci). Jednotlivé zdroje dat sjednoťte a popřípadě vhodně rozšiřte. Následně použijte co největší množství dostupných dat k vytvoření výše uvedených modelů pro italštinu. Experimentálně vyhodnoťte kvalitu vytvořených modelů na vhodné testovací sadě.
Zásady pro vypracování
Seznamte se s problematikou automatického rozpoznávání řeči z pohledu akustického a jazykového modelování a s metodami pro vyhodnocování úspěšnosti rozpoznávání řeči. Proveďte rešerši dostupných zdrojů dat umožňujících vytvořit akustický a jazykový model pro italštinu (jedná se o akustická a textová data, slovníky a nástroje pro fonetickou transkripci). Jednotlivé zdroje dat sjednoťte a popřípadě vhodně rozšiřte. Následně použijte co největší množství dostupných dat k vytvoření výše uvedených modelů pro italštinu. Experimentálně vyhodnoťte kvalitu vytvořených modelů na vhodné testovací sadě.
Seznam doporučené literatury	\renewcommand{\labelenumi}{[\theenumi]} Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall PTR, May 2001. http://htk.eng.cam.ac.uk
Seznam doporučené literatury
\renewcommand{\labelenumi}{[\theenumi]} Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall PTR, May 2001. http://htk.eng.cam.ac.uk
Přílohy volně vložené	-
Přílohy vázané v práci	tabulky
Převzato z knihovny	Ano
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby	Průběh obhajoby je zveřejněn pouze přihlášenému uživateli.
Soubor s průběhem obhajoby

Prohlížení - Portál TUL

Navigace první úrovně

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Informace o kvalifikační práci Tvorba modelů pro přepis řeči v italštině