每個分析結果背後對應的 Raw Data | 分析模型 | 理論基礎,供工程師、研究者與評審審核可重現性。
≥720p, 25–30 fps,講者臉部清晰可見224×224 對齊圖像68 landmarks(dlib)或 478 mesh(MediaPipe)RetinaFace / MTCNN / MediaPipe FaceFER2013 / AffectNetPOSTER++、EmoFAN、DAN(ViT-based)OpenFace 2.0 輸出 17 個 Action Units 強度16 kHz mono PCM,loudness 標準化至 -23 LUFSinsufficient_signal25 ms 視窗 / 10 ms hopopenSMILE eGeMAPS(88 維)/ComParE(6373 維)wav2vec2-large-xlsr、HuBERT、emotion2vecwhisper-large-v3 word-level + timestamp + logprobCKIP Transformers / jiebaNTUSD / ANTUSD(中文情感字典)LIWC-22 / VADER / NRC VAD LexiconBERT-sentiment / RoBERTa-emotion影片 + 音訊 + 轉錄BERT embedding cosine similarityL2CS-Net / OpenFace gaze 估計MediaPipe Pose + 手勢頻率Late Fusion Transformer / MMTM16 kHz mono;元音段(vowel-rich segments)為主Praat / parselmouth:jitter (週期擾動)、shimmer (振幅擾動)、HNRLPC analysis 萃取 F1–F4 + bandwidthSpectral centroid / rolloff / fluxECAPA-TDNN / x-vector 比對 reference set