綜合分析與回饋 Feedback

講者：Zoey · 分析模組：表情 / 聲音 / 用字 / 表達技巧 / 觀眾投入 / 聲音魅力

表達技巧 · Presentation Skill

4.21/5

流暢、清晰、節奏穩定

觀眾情感投入 · Affective Engagement

4.19/5

與內容情緒連結良好

聲音魅力 · Vocal Attractiveness

4.12/5

嗓音穩定且具吸引力

表情情緒分析 Facial Emotion Analysis主導：悲傷

悲傷開心生氣恐懼厭惡驚訝

悲傷34.88%

開心30.23%

生氣20.93%

恐懼13.96%

厭惡0.00%

驚訝0.00%

你在表情上表現出相當的多樣性，其中觀眾感受到你較多的悲傷情緒（34.88%）。這顯示你成功傳達了一種深沉的感傷，但這樣的比例偏高，建議可以透過練習將悲傷情緒稍微降低，讓表情更平衡。你的開心表情佔比為 30.23%，這部分維持現狀即可，因為這能讓觀眾感受到您的正面情緒。不過，你的驚訝和厭惡表情的佔比為 0%，建議增加這些元素，以便在表達時更具豐富性。生氣的情緒略高，佔比達到 20.93%，建議練習調整，以減少生氣的表情頻次，使整體感受更為積極和平易近人。

建議行動

練習將悲傷比例降至 ≤ 25%，讓敘事不過於沉重
刻意加入「驚訝」表情於關鍵點（轉折、意外結論）
降低非必要的皺眉與抿嘴，避免被誤判為生氣

聲音情緒分析 Speech Emotion Analysis主導：開心

開心生氣其他

開心75.00%

生氣18.75%

恐懼4.00%

其他2.25%

聲音上你展現了高比例的開心情緒（75%），這使得你的語調吸引並能正面影響觀眾。這樣的成績是值得保持的。然而，生氣的聲音佔 18.75%，雖然未超過 20% 且比表情狀況佳，但仍有下降空間，以進一步提升正面感知。

建議行動

維持目前的語調明亮度與開放感
檢查「生氣段落」是否來自過快語速或重音過硬，可放慢半拍中和
嘗試在情緒切換點加入 0.8–1.2 秒停頓，避免聽感緊繃

用字遣詞分析 Lexical Analysis負向高張力過重

正向高張力正向低張力負向高張力負向低張力

負向高張力39.47%

正向低張力23.68%

正向高張力21.05%

負向低張力15.80%

你的用字選擇中，負向高張力的用詞佔比最高（39.47%），這可以使得觀眾感受到一定的壓力或緊張，建議你嘗試平衡語言，增加更多正向的用詞，尤其是正向低張力的用詞，以創建更輕鬆的交流氛圍。

建議行動

把「負向高張力」目標降到 30% 以下，正向總和提升至 50%+
在每個負向關鍵詞之後跟一句正向收尾，建立節奏對比
避免「絕對化詞彙」（永遠 / 一定 / 完全）堆疊，會放大張力

表達技巧分析 Presentation Skill優於平均

4.21/5

Presentation Skill Score

你的表達技巧達到了 4.21 分的評價，顯示你在這方面做得相當不錯。持續保持流暢和清晰的表達方式，這對於與觀眾建立良好的溝通非常重要。

支撐分數的子指標 (sub-score)

主題 (Topic) · 內容 (Content) · 表達清晰度 (Clarity)
聲音與語調 (Voice & Talk) · 眼神交流 (Eye Contact)
非口語表達 (Nonverbal Expressiveness)

觀眾情感投入 Affective Engagement高度連結

4.19/5

Affective Engagement Score

你在觀眾情感投入上獲得了 4.19 分，這表示觀眾對你表達的內容感到投入和連繫，繼續維持並強化你的表達方法，可以讓觀眾進一步與你的表達建立更深的情感連結。

建議行動

維持已建立的「情緒鏡像」效果（你的開心 ↔ 觀眾的回應）
在重點段落使用第二人稱「你 / 我們」拉近距離
每 2–3 分鐘設一個微小提問，把單向講述轉為對話感

聲音魅力 Vocal Attractiveness嗓音穩定

4.12/5

Vocal Attractiveness Score

你的聲音魅力評分為 4.12 分，這是一個相當好的成績，說明你的聲音在演講中是一個吸引人的特點。持續練習如何更好地利用聲音的抑揚頓挫，確保聲音的變化能更好地服務於你的表達目的。

建議行動

持續基礎發聲訓練（橫膈膜支撐、共鳴練習）
長段落每隔 30–45 秒給音調一次明顯變化，避免聽感疲勞
關鍵句嘗試降低半度語調，營造「重量感」對比

技術背景 Technical Backbone

每個分析結果背後對應的 Raw Data ｜分析模型｜理論基礎，供工程師、研究者與評審審核可重現性。

01表情情緒分析 Facial Emotion Analysis

Raw Data

影片：≥720p, 25–30 fps，講者臉部清晰可見
每幀經 face detection 裁剪為 224×224 對齊圖像
臉部關鍵點：68 landmarks（dlib）或 478 mesh（MediaPipe）
光照、遮擋（口罩、手部）超過 30% 該幀丟棄

分析模型

Detection：RetinaFace / MTCNN / MediaPipe Face
離散情緒：CNN（VGG / ResNet50）pretrained on FER2013 / AffectNet
SOTA：POSTER++、EmoFAN、DAN（ViT-based）
AU 分析：OpenFace 2.0 輸出 17 個 Action Units 強度

理論基礎

Ekman 六大基本情緒（1972）：跨文化普世性研究
FACS（Facial Action Coding System, Ekman & Friesen 1978）：以 AU 為基本單位
Russell Circumplex（1980）：valence × arousal 二維連續模型

關鍵文獻：Ekman 1992 · Mollahosseini 2017 (AffectNet)

02聲音情緒分析 Speech Emotion Recognition (SER)

Raw Data

音訊：16 kHz mono PCM，loudness 標準化至 -23 LUFS
VAD 切段（silero / webrtcvad），< 0.3s 段落丟棄
SNR ≥ 10 dB；不足回 insufficient_signal
Frame：25 ms 視窗 / 10 ms hop

分析模型

聲學特徵：openSMILE eGeMAPS（88 維）／ComParE（6373 維）
SSL backbone：wav2vec2-large-xlsr、HuBERT、emotion2vec
Head：6-class softmax 或 V-A-D 三維回歸
後處理：1.5s 滑動 median；Mahalanobis 投影

理論基礎

Scherer Component Process Model：情緒由評估、生理、表達多面向組成
Banse & Scherer 1996：情緒的聲學相關性（F0 / 強度 / 語速 / 嗓音品質）
Mehrabian PAD 模型（1996）：Pleasure-Arousal-Dominance 三維

關鍵語料：IEMOCAP · MSP-Podcast · CASIA（中文）

03用字遣詞分析 Lexical / Sentiment Analysis

Raw Data

ASR 轉錄：whisper-large-v3 word-level + timestamp + logprob
中文斷詞：CKIP Transformers / jieba
每詞標註 POS（詞性）與情感極性
句子邊界由 forced alignment 還原

分析模型

詞典：NTUSD / ANTUSD（中文情感字典）
英文：LIWC-22 / VADER / NRC VAD Lexicon
模型：BERT-sentiment / RoBERTa-emotion
輸出：每詞 valence × arousal → 投影到四象限

理論基礎

Russell Circumplex of Affect（1980）：valence × arousal 二維
Bradley & Lang ANEW（1999）：詞彙情感常模
Mohammad NRC VAD（2018）：20k 詞 V-A-D 標註
Pennebaker LIWC：心理意涵 vocabulary 分類

四象限對應：正向高張（興奮）/ 正向低張（放鬆）/ 負向高張（憤怒）/ 負向低張（抑鬱）

04表達技巧分析 Presentation Skill (Multi-modal)

Raw Data

三模態同步：影片 + 音訊 + 轉錄
子分項各自的特徵流（見右欄）
講者主題標籤（自填）作為 ground truth

六項子分數：主題 / 內容 / 清晰度 / 聲音語調 / 眼神 / 非口語

分析模型

主題切合：BERT embedding cosine similarity
內容密度：TF-IDF + readability + entity 多樣性
清晰度：ASR confidence + filler density
聲音語調：F0 / 能量 / 語速（eGeMAPS）
眼神：L2CS-Net / OpenFace gaze 估計
非口語：MediaPipe Pose + 手勢頻率

理論基礎

Mehrabian 7-38-55 規則（1971，常被誤引但為起點）
TED Talk Engagement 研究（Sinha & Cassell 2015）
Toastmasters Competent Communication 框架
Hyland Metadiscourse 模型（學術簡報結構）

聚合方式：六子分加權平均；任一子分 = 1 → 整體封頂 3

05觀眾情感投入 Affective Engagement

Raw Data

有觀眾鏡頭：觀眾臉部反應 + 姿態 + 視線方向
無觀眾鏡頭：以講者多模態特徵推估「可預測之投入度」
標註資料：人工評分（Likert 1–5）作為訓練 target
Inter-rater：ICC(2,k) ≥ 0.75 才入資料集

分析模型

Multi-modal regressor：audio + visual + lexical 特徵融合
Backbone：Late Fusion Transformer / MMTM
說服特徵：故事結構偵測、修辭裝置（反問、排比）
能量峰值對齊：emotion arousal 與重點句的時間相關性

理論基礎

Csikszentmihalyi Flow Theory（1990）：投入感的心理結構
Hatfield 情緒感染論（1993）：mood contagion / mimicry
Cialdini 說服六原則：權威 / 互惠 / 喜好 …
Petty & Cacioppo ELM：精緻可能性模型（中央 vs. 周邊路徑）

06聲音魅力 Vocal Attractiveness

Raw Data

音訊：16 kHz mono；元音段（vowel-rich segments）為主
長元音 ≥ 200 ms 才入 jitter/shimmer 計算
性別 / 年齡帶元資料（用於 fairness 校準）
背景噪聲 SNR ≥ 15 dB（嗓音品質敏感於噪聲）

分析模型

Praat / parselmouth：jitter (週期擾動)、shimmer (振幅擾動)、HNR
共振峰：LPC analysis 萃取 F1–F4 + bandwidth
明亮度：Spectral centroid / rolloff / flux
說話人嵌入：ECAPA-TDNN / x-vector 比對 reference set

理論基礎

Source-Filter Theory（Fant 1960）：聲源 × 共鳴腔濾波
Hu & Liu 2010：vocal attractiveness 的聲學相關性
Babcock et al.：「溫暖感」與 formant bandwidth、HNR 的關係
Puts 2005：F0 / formant dispersion 與感知吸引力

Fairness 注意：性別 / 口音偏誤需以分群 ICC 監控（差距 > 0.3 重新校準）