字节跳动
多模态风险识别方案
用 ASR + OCR + 语义融合,解决短视频小语种口播漏判难题。
背景
抖音广告里,有些黑产会用小语种口播加无字幕的方式逃避审核。传统关键词方案覆盖不住,人工又听不过来。
我的角色
方案设计者 + 落地推动者
行动
- 设计 ASR、OCR、语义理解三层融合方案,建立统一判断链路
- 微调 Prompt,让模型学会区分真人口播和 BGM 干扰
- 接入 AED 垂类模型做语种识别,减少日韩语误判
- 持续灰度测试阈值和规则,校准识别精度与召回平衡
结果
- 模型准确率 99.13%
- TVVR 从 2.78% 降到 0.82%
- 目标达成率 265.49%
- 日均拒绝风险内容 1248+ 条
关键洞察
技术不是越复杂越好,而是刚好解决问题。我们没用最贵的模型,但用了最对的组合。