Ádám Katalin

HOME

ÉLETRAJZ

TANKÖRÖK  E-TANANYAGOK 

 ALKALMAZOTT PROGRAMOK

 KUTATÁSI TÉMÁK ESEMÉNYEK

INTÉZET

         

Nyelvdetekció Rejtett Markov Modell Alkalmazásával
(Vázsonyi Miklós)


J
elen tanulmány a szövegbányászati feladatok egyik megelőző lépését, az adott szövegek nyelvi felismerésének egy gyakorlati megoldását mutatja be Rejtett Markov Modell (Hidden Markov Model – HMM) alkalmazása segítségével. A nyelvdetekció egy fontos kiinduló lépés elsősorban többnyelvű dokumentumok esetében, és kiemelten jelentős az internetes web mining esetén, amikor web spider technológiával automatikus webes dokumentumfeltérképezést végzünk, amelynek során információkinyerés és dokumentum strukturálás és/vagy osztályozás a célunk. Ekkor a strukturálás érdekében a bemenetként szolgáló szövegekről el kell dönteni, hogy milyen nyelven íródtak.  A Rejtett Markov Modell működési elvének megismerésével nem csak az alábbiakban részletezett nyelvdetekciós probléma egy hatékony megoldását értheti meg az olvasó, hanem egyben egy olyan általános módszert is elsajátíthat, amellyel számos egyéb, természetes nyelvi, beszédfelismerési, szövegfeldolgozási probléma is hatékonyan megoldható.

Phonetic Level Annotation and Segmentation of Hungarian Speech Databases
Gy Zsigri , A Kocsor, L Tóth, Gy Sejtes

Abstract:The purpose of this paper is to give an outline of phonetic level annotation and segmentation of Hungarian speech databases at the levels of definition and speech technology. In addition to giving guidance to the definition of the content of a database, the technique of annotation and the procedure of manual segmentation, we also discuss mathematical models of computeraided semi-automatic and automatic segmentation. Finally, we are summing up our observations about the application of the procedures we gained during the processing of the MTBA Hungarian Telephone Speech Database.

 

 

Hunglish: nyílt statisztikai magyar-angol gépi nyersfordító

Halácsy Péter, Kornai András, Németh László, Rung András, Szakadát István, Trón Viktor, Varga Dániel

Kivonat A Budapesti Műszaki Egyetem Média Oktató és Kutató Központjának vezetésével 2004 júliusában indult Hunglish projekt1 egy szabadon felhasználható, statisztikai gépi nyersfordítót, illetve fordítástámogató rendszert hoz létre, magyar nyelvű szövegek angolra való átültetéséhez. A gépi fordító tanításához egy kétnyelvű illesztett párhuzamos korpuszt hozunk létre. A projekt lezárása után nemcsak a kifejlesztett szoftvereket, hanem a korpuszt és az ez alapján épített/javított két nyelvű magyar-angol szótárat is szabadon hozzáférhetővé tesszük bárki számára.

DNS-SZEKVENCIAK ANALIZISE SZOVEGELEMZESI MODSZEREKKEL Phonetic transcription in automatic speech recognition Products and Demos

 

Kornai András

Frequency in morphology

Introduction

The theoretical background

Társoldalak:

Mérnök matematika BSC tananyag

www.sajatkiadas.hu

www.magan-kiadas.hu

www.liquwell.hu

www.gliderkft.hu