昨天,北京大學宣布啟動有聲博物館建設,并發布語言文字大數據模型、大型語料庫等重大成果。未來,這些成果將入藏博物館,讓聲音“看得見”。
博物館的“建設方”是北大語言學實驗室,1925年“誕生”,本身就稱得上是一件重磅展品。北大介紹,實驗室的成立標志著中國現代語音學研究的開端。100年間,實驗室在人類語言涌現和演化研究、語言障礙與教育公平研究、基于人工智能的語言應用研究等方向取得了多項重大成果。比如,實驗室聚焦聽力障礙等群體的語言問題,開發了科學評估與康復訓練體系;揭示了語言與大腦神經系統的互動機制,解析語言演化對人類思維的塑造過程。
很多有趣的“聲音”將成為博物館的亮點。比如,該實驗室利用語音多模態技術,系統記錄了戲曲、民歌、吟誦等珍貴的有聲素材;建設大型語料庫,融合人工智能技術,采集普通話、方言及各民族語言數據,構建語言資源平臺。
實驗室主任孔江平介紹,2022年,實驗室組織國內12所大學和科研機構的師生團隊,對中華民族語言文字開展大規模田野調查。歷經近4年,初步完成了調查工作和大型數據庫建設。


