字节跳动

多模态风险识别方案

用 ASR + OCR + 语义融合,解决短视频小语种口播漏判难题。

背景

抖音广告里,有些黑产会用小语种口播加无字幕的方式逃避审核。传统关键词方案覆盖不住,人工又听不过来。

我的角色

方案设计者 + 落地推动者

行动

  • 设计 ASR、OCR、语义理解三层融合方案,建立统一判断链路
  • 微调 Prompt,让模型学会区分真人口播和 BGM 干扰
  • 接入 AED 垂类模型做语种识别,减少日韩语误判
  • 持续灰度测试阈值和规则,校准识别精度与召回平衡

结果

  • 模型准确率 99.13%
  • TVVR 从 2.78% 降到 0.82%
  • 目标达成率 265.49%
  • 日均拒绝风险内容 1248+ 条

关键洞察

技术不是越复杂越好,而是刚好解决问题。我们没用最贵的模型,但用了最对的组合。