綜合分析與回饋 Feedback

講者:Zoey · 分析模組:表情 / 聲音 / 用字 / 表達技巧 / 觀眾投入 / 聲音魅力
表達技巧 · Presentation Skill
4.21/5
流暢、清晰、節奏穩定
觀眾情感投入 · Affective Engagement
4.19/5
與內容情緒連結良好
聲音魅力 · Vocal Attractiveness
4.12/5
嗓音穩定且具吸引力

表情情緒分析 Facial Emotion Analysis主導:悲傷

悲傷 開心 生氣 恐懼 厭惡 驚訝
悲傷34.88%
開心30.23%
生氣20.93%
恐懼13.96%
厭惡0.00%
驚訝0.00%
你在表情上表現出相當的多樣性,其中觀眾感受到你較多的悲傷情緒(34.88%)。這顯示你成功傳達了一種深沉的感傷,但這樣的比例偏高,建議可以透過練習將悲傷情緒稍微降低,讓表情更平衡。你的開心表情佔比為 30.23%,這部分維持現狀即可,因為這能讓觀眾感受到您的正面情緒。不過,你的驚訝和厭惡表情的佔比為 0%,建議增加這些元素,以便在表達時更具豐富性。生氣的情緒略高,佔比達到 20.93%,建議練習調整,以減少生氣的表情頻次,使整體感受更為積極和平易近人。
建議行動
  • 練習將悲傷比例降至 ≤ 25%,讓敘事不過於沉重
  • 刻意加入「驚訝」表情於關鍵點(轉折、意外結論)
  • 降低非必要的皺眉與抿嘴,避免被誤判為生氣

聲音情緒分析 Speech Emotion Analysis主導:開心

開心 生氣 其他
開心75.00%
生氣18.75%
恐懼4.00%
其他2.25%
聲音上你展現了高比例的開心情緒(75%),這使得你的語調吸引並能正面影響觀眾。這樣的成績是值得保持的。然而,生氣的聲音佔 18.75%,雖然未超過 20% 且比表情狀況佳,但仍有下降空間,以進一步提升正面感知。
建議行動
  • 維持目前的語調明亮度與開放感
  • 檢查「生氣段落」是否來自過快語速或重音過硬,可放慢半拍中和
  • 嘗試在情緒切換點加入 0.8–1.2 秒停頓,避免聽感緊繃

用字遣詞分析 Lexical Analysis負向高張力過重

正向高張力 正向低張力 負向高張力 負向低張力
負向高張力39.47%
正向低張力23.68%
正向高張力21.05%
負向低張力15.80%
你的用字選擇中,負向高張力的用詞佔比最高(39.47%),這可以使得觀眾感受到一定的壓力或緊張,建議你嘗試平衡語言,增加更多正向的用詞,尤其是正向低張力的用詞,以創建更輕鬆的交流氛圍。
建議行動
  • 把「負向高張力」目標降到 30% 以下,正向總和提升至 50%+
  • 在每個負向關鍵詞之後跟一句正向收尾,建立節奏對比
  • 避免「絕對化詞彙」(永遠 / 一定 / 完全)堆疊,會放大張力

表達技巧分析 Presentation Skill優於平均

4.21/5
Presentation Skill Score
你的表達技巧達到了 4.21 分 的評價,顯示你在這方面做得相當不錯。持續保持流暢和清晰的表達方式,這對於與觀眾建立良好的溝通非常重要。
支撐分數的子指標 (sub-score)
  • 主題 (Topic) · 內容 (Content) · 表達清晰度 (Clarity)
  • 聲音與語調 (Voice & Talk) · 眼神交流 (Eye Contact)
  • 非口語表達 (Nonverbal Expressiveness)

觀眾情感投入 Affective Engagement高度連結

4.19/5
Affective Engagement Score
你在觀眾情感投入上獲得了 4.19 分,這表示觀眾對你表達的內容感到投入和連繫,繼續維持並強化你的表達方法,可以讓觀眾進一步與你的表達建立更深的情感連結。
建議行動
  • 維持已建立的「情緒鏡像」效果(你的開心 ↔ 觀眾的回應)
  • 在重點段落使用第二人稱「你 / 我們」拉近距離
  • 每 2–3 分鐘設一個微小提問,把單向講述轉為對話感

聲音魅力 Vocal Attractiveness嗓音穩定

4.12/5
Vocal Attractiveness Score
你的聲音魅力評分為 4.12 分,這是一個相當好的成績,說明你的聲音在演講中是一個吸引人的特點。持續練習如何更好地利用聲音的抑揚頓挫,確保聲音的變化能更好地服務於你的表達目的。
建議行動
  • 持續基礎發聲訓練(橫膈膜支撐、共鳴練習)
  • 長段落每隔 30–45 秒給音調一次明顯變化,避免聽感疲勞
  • 關鍵句嘗試降低半度語調,營造「重量感」對比

技術背景 Technical Backbone

每個分析結果背後對應的 Raw Data | 分析模型 | 理論基礎,供工程師、研究者與評審審核可重現性。

01表情情緒分析 Facial Emotion Analysis

Raw Data
  • 影片:≥720p, 25–30 fps,講者臉部清晰可見
  • 每幀經 face detection 裁剪為 224×224 對齊圖像
  • 臉部關鍵點:68 landmarks(dlib)或 478 mesh(MediaPipe)
  • 光照、遮擋(口罩、手部)超過 30% 該幀丟棄
分析模型
  • Detection:RetinaFace / MTCNN / MediaPipe Face
  • 離散情緒:CNN(VGG / ResNet50)pretrained on FER2013 / AffectNet
  • SOTA:POSTER++EmoFANDAN(ViT-based)
  • AU 分析:OpenFace 2.0 輸出 17 個 Action Units 強度
理論基礎
關鍵文獻:Ekman 1992 · Mollahosseini 2017 (AffectNet)

02聲音情緒分析 Speech Emotion Recognition (SER)

Raw Data
  • 音訊:16 kHz mono PCM,loudness 標準化至 -23 LUFS
  • VAD 切段(silero / webrtcvad),< 0.3s 段落丟棄
  • SNR ≥ 10 dB;不足回 insufficient_signal
  • Frame:25 ms 視窗 / 10 ms hop
分析模型
  • 聲學特徵:openSMILE eGeMAPS(88 維)/ComParE(6373 維)
  • SSL backbone:wav2vec2-large-xlsrHuBERTemotion2vec
  • Head:6-class softmax 或 V-A-D 三維回歸
  • 後處理:1.5s 滑動 median;Mahalanobis 投影
理論基礎
關鍵語料:IEMOCAP · MSP-Podcast · CASIA(中文)

03用字遣詞分析 Lexical / Sentiment Analysis

Raw Data
  • ASR 轉錄:whisper-large-v3 word-level + timestamp + logprob
  • 中文斷詞:CKIP Transformers / jieba
  • 每詞標註 POS(詞性)與情感極性
  • 句子邊界由 forced alignment 還原
分析模型
  • 詞典:NTUSD / ANTUSD(中文情感字典)
  • 英文:LIWC-22 / VADER / NRC VAD Lexicon
  • 模型:BERT-sentiment / RoBERTa-emotion
  • 輸出:每詞 valence × arousal → 投影到四象限
理論基礎
四象限對應:正向高張(興奮)/ 正向低張(放鬆)/ 負向高張(憤怒)/ 負向低張(抑鬱)

04表達技巧分析 Presentation Skill (Multi-modal)

Raw Data
  • 三模態同步:影片 + 音訊 + 轉錄
  • 子分項各自的特徵流(見右欄)
  • 講者主題標籤(自填)作為 ground truth
六項子分數:主題 / 內容 / 清晰度 / 聲音語調 / 眼神 / 非口語
分析模型
  • 主題切合:BERT embedding cosine similarity
  • 內容密度:TF-IDF + readability + entity 多樣性
  • 清晰度:ASR confidence + filler density
  • 聲音語調:F0 / 能量 / 語速(eGeMAPS)
  • 眼神:L2CS-Net / OpenFace gaze 估計
  • 非口語:MediaPipe Pose + 手勢頻率
理論基礎
聚合方式:六子分加權平均;任一子分 = 1 → 整體封頂 3

05觀眾情感投入 Affective Engagement

Raw Data
  • 有觀眾鏡頭:觀眾臉部反應 + 姿態 + 視線方向
  • 無觀眾鏡頭:以講者多模態特徵推估「可預測之投入度」
  • 標註資料:人工評分(Likert 1–5)作為訓練 target
  • Inter-rater:ICC(2,k) ≥ 0.75 才入資料集
分析模型
  • Multi-modal regressor:audio + visual + lexical 特徵融合
  • Backbone:Late Fusion Transformer / MMTM
  • 說服特徵:故事結構偵測、修辭裝置(反問、排比)
  • 能量峰值對齊:emotion arousal 與重點句的時間相關性
理論基礎

06聲音魅力 Vocal Attractiveness

Raw Data
  • 音訊:16 kHz mono;元音段(vowel-rich segments)為主
  • 長元音 ≥ 200 ms 才入 jitter/shimmer 計算
  • 性別 / 年齡帶元資料(用於 fairness 校準)
  • 背景噪聲 SNR ≥ 15 dB(嗓音品質敏感於噪聲)
分析模型
  • Praat / parselmouth:jitter (週期擾動)、shimmer (振幅擾動)、HNR
  • 共振峰:LPC analysis 萃取 F1–F4 + bandwidth
  • 明亮度:Spectral centroid / rolloff / flux
  • 說話人嵌入:ECAPA-TDNN / x-vector 比對 reference set
理論基礎
Fairness 注意:性別 / 口音偏誤需以分群 ICC 監控(差距 > 0.3 重新校準)