本科目將講解語音處理的基本原理,並介紹一些近代語音處理領域的技術
Spoken Language Structure #
語音溝通的決定因素 #
語音溝通的決定因素與以下兩者息息相關:語音生成(Speench Generation)與語音感知(Speech Understanding)
以下將介紹這些東西如何讓電腦與人類作為配對
Topic | Computer | Human |
---|---|---|
Message Formulation | 創建或接收一個要表達的概念或訊息 | 大腦中形成思維或意圖 |
Language System | 把想要表達的訊息轉換成詞序(Sequence of words),並且找出詞序的發音、語調與音素序列(phoneme sequence) | 人類語言系統中語法和語意的規則運用 |
Neuromuscular Mapping | 使用演算法與模型來合成聲音的過程 | 控制發聲器官(如聲帶、嘴唇、下顎、舌頭等)以產生聲音序列的過程 |
Cochlea(耳蝸) Motion | 透過語音分析(Speech Analysis)進行頻率分析 | 聲音傳到內耳的耳蝸,由耳蝸進行頻率分析(Frequency Analysis) |
Neural Transduction | 尚未有對應 | 神經將訊息用信號傳給大腦,大腦再透過自己的方式理解語意 |
目前尚未知道人類神經活動如何映射到語言系統,以及大腦如何理解訊息。
聲音 #
聲波 #
- 聲波是疏密波,且須透過微粒(molecules)傳播
- 我們可以將聲波畫成正弦波(sine wave)來表示
聲音的量測 #
聲音的強度與 振幅(Amplitude) 有關,我們可以透過以下方式測量聲音的強度
- 分貝(Decibel):
- 用來比較兩個聲音之間的強度,因此分貝是相對值
- 公式如下:$$dB = 10log_{10}(I / I_0)$$
- 我們定義 0dB 是人類聽覺的閾值
- 聲壓級(Sound Pressure Level, SPL):
- 聲音強度與壓力平方成正比
- 公式如下:$$SPL(dB)=20log_{10}(P / P_0)$$
- \(P_0\) 為基準聲壓,為人類聽覺的最低聲壓閾值,通常取 1KHz 的 \(2 \times 10 ^{-5} \mathrm{\mu bar}\)
- 準確的聲音閾值:
- 每個頻率的聲音閾值都不太一樣
- 以下圖表可以看出每個頻率的最低聲音閾值
- 人耳在 4000 Hz 的聲音閾值最低