快轉到主要內容
  1. 資工相關/

語音處理

··
大學課程 筆記 語音處理
Toast
作者
Toast
Toast 是一位分享知識、生活和其他的部落客。他也是台灣的一名學生。

本科目將講解語音處理的基本原理,並介紹一些近代語音處理領域的技術

Spoken Language Structure
#

語音溝通的決定因素
#

語音溝通的決定因素與以下兩者息息相關:語音生成(Speench Generation)語音感知(Speech Understanding)

alt text

以下將介紹這些東西如何讓電腦與人類作為配對

Topic Computer Human
Message Formulation 創建或接收一個要表達的概念或訊息 大腦中形成思維或意圖
Language System 把想要表達的訊息轉換成詞序(Sequence of words),並且找出詞序的發音、語調與音素序列(phoneme sequence) 人類語言系統中語法和語意的規則運用
Neuromuscular Mapping 使用演算法與模型來合成聲音的過程 控制發聲器官(如聲帶、嘴唇、下顎、舌頭等)以產生聲音序列的過程
Cochlea(耳蝸) Motion 透過語音分析(Speech Analysis)進行頻率分析 聲音傳到內耳的耳蝸,由耳蝸進行頻率分析(Frequency Analysis)
Neural Transduction 尚未有對應 神經將訊息用信號傳給大腦,大腦再透過自己的方式理解語意
目前尚未知道人類神經活動如何映射到語言系統,以及大腦如何理解訊息。

聲音
#

聲波
#

  • 聲波是疏密波,且須透過微粒(molecules)傳播
  • 我們可以將聲波畫成正弦波(sine wave)來表示
    alt text

聲音的量測
#

聲音的強度與 振幅(Amplitude) 有關,我們可以透過以下方式測量聲音的強度

  • 分貝(Decibel)
    • 用來比較兩個聲音之間的強度,因此分貝是相對值
    • 公式如下:$$dB = 10log_{10}(I / I_0)$$
    • 我們定義 0dB 是人類聽覺的閾值
  • 聲壓級(Sound Pressure Level, SPL)
    • 聲音強度與壓力平方成正比
    • 公式如下:$$SPL(dB)=20log_{10}​(P / P_0​)$$
    • \(P_0\) 為基準聲壓,為人類聽覺的最低聲壓閾值,通常取 1KHz 的 \(2 \times 10 ^{-5} \mathrm{\mu bar}\)
  • 準確的聲音閾值
    • 每個頻率的聲音閾值都不太一樣
    • 以下圖表可以看出每個頻率的最低聲音閾值
    • 人耳在 4000 Hz 的聲音閾值最低
      alt text