↓快轉到主要內容

語音處理

4 分鐘

2025年9月15日· 926 字 ·

大學課程筆記語音處理

作者

Toast

Toast 是一位分享知識、生活和其他的部落客。他也是台灣的一名學生。

目錄

目錄

本科目將講解語音處理的基本原理，並介紹一些近代語音處理領域的技術

Spoken Language Structure
#

語音溝通的決定因素
#

語音溝通的決定因素與以下兩者息息相關：語音生成（Speench Generation）與語音感知（Speech Understanding）

alt text

以下將介紹這些東西如何讓電腦與人類作為配對

Topic	Computer	Human
Message Formulation	創建或接收一個要表達的概念或訊息	大腦中形成思維或意圖
Language System	把想要表達的訊息轉換成詞序（Sequence of words），並且找出詞序的發音、語調與音素序列（phoneme sequence）	人類語言系統中語法和語意的規則運用
Neuromuscular Mapping	使用演算法與模型來合成聲音的過程	控制發聲器官（如聲帶、嘴唇、下顎、舌頭等）以產生聲音序列的過程
Cochlea（耳蝸） Motion	透過語音分析（Speech Analysis）進行頻率分析	聲音傳到內耳的耳蝸，由耳蝸進行頻率分析（Frequency Analysis）
Neural Transduction	尚未有對應	神經將訊息用信號傳給大腦，大腦再透過自己的方式理解語意

目前尚未知道人類神經活動如何映射到語言系統，以及大腦如何理解訊息。

聲音
#

聲波
#

聲波是疏密波，且須透過微粒（molecules）傳播
我們可以將聲波畫成正弦波（sine wave）來表示

聲音的量測
#

聲音的強度與 振幅（Amplitude） 有關，我們可以透過以下方式測量聲音的強度

分貝（Decibel）：
- 用來比較兩個聲音之間的強度，因此分貝是相對值
- 公式如下：$$dB = 10log_{10}(I / I_0)$$
- 我們定義 0dB 是人類聽覺的閾值
聲壓級（Sound Pressure Level, SPL）：
- 聲音強度與壓力平方成正比
- 公式如下：$$SPL(dB)=20log_{10}(P / P_0)$$
- \(P_0\) 為基準聲壓，為人類聽覺的最低聲壓閾值，通常取 1KHz 的 \(2 \times 10 ^{-5} \mathrm{\mu bar}\)
準確的聲音閾值：
- 每個頻率的聲音閾值都不太一樣
- 以下圖表可以看出每個頻率的最低聲音閾值
- 人耳在 4000 Hz 的聲音閾值最低