當前位置:首頁 > 今日熱點 > 產經綜合 > 正文

    閩南話翻譯系統?廈門大學團隊早有推出!

    2022-10-24 09:46:42    來源:廈門日報    

    10月19日,在美國Meta公司公布閩南話翻譯系統,Meta首席執行官馬克·扎克伯格親自演示系統把閩南話翻譯成英語時,萬里之外的廈門大學信息學院副教授、智能語音實驗室負責人洪青陽收到一大堆朋友的簡訊,他們迫不及待地想告訴他:小扎對閩南話下手了!但是,你們兩年前不是已經推出閩南話翻譯系統了嗎?

    是的!洪青陽科研團隊和廈大人文學院許彬彬科研團隊,在2019年推出閩南方言人工智能語音系統,這是一個聽得懂閩南話、會說閩南話、也可以寫的AI(人工智能)驅動的閩南話語音翻譯系統,幫助許多人體會用“中國最難學方言之一”交流的樂趣和便利。

    它能做什么?


    (資料圖片)

    可實時翻譯還能識別文本

    10月22日,洪青陽在實驗室演示廈大版的閩南話翻譯系統。系統的小助手用閩南話說:聽說現在可以將閩南話翻譯成英語,真巧,我們也有閩南話AI……小助手一邊說,系統實時把它的閩南話翻譯成中文文字。

    不僅聽得懂,系統還會說。洪青陽隨后示范實時翻譯,他用閩南話說:即陣仔有閑無?系統可以立刻翻譯為普通話“現在有空嗎?”當然,用普通話說,系統也會翻譯成閩南話,而且是有腔調的閩南話。小助手說,翻譯不限短句,理論上說多長就可以翻譯多長。

    此外,系統還可以識別不同地區不同口音閩南話,包括廈門、泉州、漳州、潮汕等地。

    洪青陽團隊認為,從現有資料看,Meta是語音到語音的翻譯,沒有產生文字,技術方案是從端到端,研究具有開創性,但還不夠靈活,比如不能形成識別文本,要延伸到其他應用較難。

    在這方面,廈大版閩南話翻譯系統,有其先進性——廈大版還涉及文字,可以將漢字轉換合成閩南話發音,還有語音識別、合成工具,可以將閩南話翻譯成普通話,普通話翻譯成閩南話。

    美國版閩南話翻譯系統是把閩南話翻譯為英語,洪青陽說,對于廈大版閩南話翻譯系統來說,這毫無問題,最難的部分是將閩南話翻譯并顯示為普通話,而這已經解決了。

    目前,廈大團隊的閩南話翻譯系統已經上線,在微信的小程序搜索“閩南話識別”和“AI語音合成”,就可以實現閩南話和普通話的無障礙溝通。

    洪青陽說,2019年推出系統后,依舊在不斷完善升級——當發音速度不一、吞音等情況出現時,系統的背后還有一位“把關人”。當遇上系統無法識別的語音時,許彬彬團隊就會進行分析,把新的表達整理成文檔,擴充詞典和句子語料。與此同時,洪青陽團隊在系統后臺不斷完善算法,以學習到更多口音和生僻詞匯。

    廈大團隊表示,他們在實驗室完成0到1的研發,希望有更多人和社會資源參與進來,完成1到100的產業化,助力于閩南話學習和人際交往等等。

    它牛在哪里?

    聽得懂不同口音的“豬”

    閩南話的AI翻譯,難度不小。閩南話存在非常多的多音字,復雜的文白現象,有音無字的問題等,洪青陽說,這對訓練模型中語音數據與其對應音素的正確映射,帶去較大的麻煩。

    舉個例子大家或許就會明白,廈門人經常說,“豬”牽出廈門島就不叫“豬”了,意思是說,單是“豬”,島內和島外發音就不一樣,更不用說廈漳泉地區了。廈大版的閩南話翻譯系統解決了這類難題,從目前看,有三大亮點。

    有地基

    重新建立閩南話發音詞典

    洪青陽介紹,翻譯的最大難題是要如何把閩南話發音拆分為聲母和韻母,它不同于普通話的聲母韻母,盡管之前也有一些閩南話的標音方法,但是,廈大團隊發現,這種自創的閩南話發音難以和AI有機結合起來,因此廈大研究人員自己建立一套兼容各地不同口音閩南話發音的體系,等于是為各種口音的閩南話建立一個基本的“地基”,當然,它不同于普通話發音,它是有九個聲調的。

    有資料庫

    囊括廈漳泉多地的語音資料

    建立語音資料庫,用大白話說,這個語音資料庫要有足夠多人的語音,口音要不同,還要有男女老少語音,這樣,AI才會通過語音資料庫去識別不同地區不同口音的閩南話。

    這是基于許彬彬近十年來的研究成果。許彬彬帶領團隊借鑒整理了大量語音資料——囊括省內廈漳泉多地的閩南方言、文本,甚至收集境外多處講閩南話的地點的語音材料。

    此外,每到寒暑假,許彬彬團隊還會去各地進行田野調查。許彬彬早前接受本報采訪時曾介紹:“省內的德化、漳浦、南靖、東山等,以及菲律賓北部城市、美國東部地區,每一個地點至少要停留5天,盡可能全面地收集該地區語音資料。”

    有模型

    設計聲學模型和語言模型

    洪青陽團隊設計了閩南話的聲學模型和語言模型,其中聲學模型與發音詞典關聯,盡可能學習到各地的口音,以不斷提升系統的魯棒性(控制系統的穩定性),語言模型則采用具有豐富語料的普通話文本訓練,對用戶上下文內容進行有效約束。

    洪青陽說,這里的難點是閩南話拼音和普通話詞匯的對應,團隊因此又設計了識別詞典,并整合到解碼系統里,最終能直接用普通話文字顯示識別內容。對于語音合成,洪青陽團隊采用端到端建模框架,并做了前端的大量優化,使閩南話合成更加自然,更加逼真,也更快捷。

    除了許彬彬所提供的語音資料外,他們還邀請了眾多志愿者參與識別測試,讓系統“學習”不同口音的閩南話。待系統基本“學會”不同口音的閩南話后,洪青陽又給系統加大了難度——文讀(讀書認字時教的語音)和白讀(日常生活中廣泛使用的語音)都要會。

    閩南話中存在大量多音字,有著復雜的文讀白讀現象,以“大學”這一詞為例,就有文讀和白讀兩種讀法。研究人員對閩南話語音識別采取了特定規則的發音詞典標注,并用革新后的算法建立了閩南話語音識別模型。

    為什么選它?

    全球約七千萬人說閩南話

    在美國Meta公司公布閩南話翻譯系統后,很多人很吃驚:為什么是閩南話?

    原因也很簡單,目前,全世界大約有7000萬人在說閩南話,分布在福建的廈、漳、泉地區,臺灣地區,廣東潮汕,雷州半島,海南島部分地區以及浙江溫州部分鄉鎮等,此外還有廣闊的東南亞。與此同時,閩南話被稱為“中國最難學方言之一”。

    2013年,洪青陽和許彬彬團隊開始閩南話翻譯系統研究,洪青陽說,這源于團隊中不少人都是閩南人,有閩南情懷。而且,閩南話是我國重要方言之一。與此同時,許彬彬深耕閩南方言等漢語方言研究多年。

    當然,Meta公司認為,之所以選擇閩南話,還有一個原因:為了解決缺乏文字語種的語言翻譯難題。但是,洪青陽說,其實閩南話是有用于書面記載的文字和發音詞典。

    關鍵詞: 廈門大學

    上一篇:
    下一篇:

    亚洲福利视频一区| 亚洲高清成人一区二区三区| 国产精品久久亚洲一区二区| 亚洲欧洲日产国码二区首页| 亚洲一二成人精品区| 久久青青成人亚洲精品| 国产日韩亚洲大尺度高清| 国产亚洲一区二区三区在线观看| 中文字幕亚洲图片| 亚洲香蕉成人AV网站在线观看| 国产亚洲精aa成人网站| 国产亚洲色婷婷久久99精品91| 最新精品亚洲成a人在线观看| 国产精品亚洲综合一区| 最新国产AV无码专区亚洲| 亚洲一区日韩高清中文字幕亚洲 | 久久久影院亚洲精品| 久久91亚洲精品中文字幕| 亚洲AV无码一区二区二三区入口| 情人伊人久久综合亚洲| 久久亚洲成a人片| 色婷婷亚洲十月十月色天| 久久亚洲精品无码VA大香大香| 亚洲色图黄色小说| 亚洲国产精品久久丫| 亚洲一级特黄特黄的大片| 亚洲一卡2卡三卡4卡无卡下载| 亚洲欧美日韩久久精品| 国产成人va亚洲电影| 亚洲毛片不卡av在线播放一区| 伊人久久精品亚洲午夜| 亚洲国产第一站精品蜜芽| 亚洲日韩区在线电影| 亚洲国产综合自在线另类| 日韩亚洲国产综合高清| 亚洲hairy多毛pics大全| 亚洲国产精品尤物yw在线| 亚洲欧洲成人精品香蕉网| 亚洲激情在线观看| 亚洲人成网站在线观看播放动漫| 亚洲中文无码mv|