字节跳动大模型遭内部实习生攻击 知情人士透露“损失被夸大”
近日,社交平台上有消息称:“字节跳动实习生田某某因‘团队资源分配不均’,在模型训练过程中投毒,导致8000多张H100训练一个多月都是错误的,损失超千万美元。”
据字节跳动知情人士对记者透露,确实有破坏模型训练一事,不过传闻也有夸张和虚构的信息。该人士表示,这件事情其实发生在今年6月底,田某某是在商业化技术团队实习,因为对团队资源分配不满,使用攻击代码破坏团队的模型训练任务。
据悉,田某某利用了Huggingface(HF)平台的漏洞,在字节跳动公司的共享模型中写入了破坏代码,导致模型训练效果忽高忽低,无法产生预期的训练成果。
一位从事互联网安全的人士对记者表示:“公司内部一般都有人专门负责测试审计代码,但通常不会看全部代码,如果隐藏得很好的话,即使看了也未必能发现,这种情况很难防范,如果不是实习生,就是正式员工如果想在代码中隐藏一些别有意图的代码,也很难发现。所以对技术团队来说,招人很关键。”
从成本的角度上,上述从事互联网安全的人士补充道:“软件开发上公司通常会信任同事不会有恶意,如果个个都怀疑,公司会承受不了成本压力。”
北京大数据协会理事、北京融信数联科技有限公司CTO张广志对记者表示,技术的发展和应用,需要受到法律法规、伦理道德和管理规程的约束。从安全视角看,信任基(Trust Base)需要持续重视。无论硬件、软件如何设计完善,仍不免需要人来操作。无论大模型或其他领域,信任基最大薄弱环节最终还是人。
其实互联网公司发生过一些从内部对公司进行攻击或破坏的案例,从内部攻击造成的影响和损失都不算小。例如,2020年2月微盟研发中心运维部的核心运维人员通过VPN登录服务器,并对线上生产环境进行了恶意破坏,删除了数据库,导致微盟平台约300万个商家的小程序全部宕机,事件从发生到数据全面找回历时一周。该事件当时导致微盟市值蒸发超过30亿港元,直接亏损0.87亿元人民币。此外,微盟还准备了1.5亿元的赔付拨备金。
传闻此次字节跳动遭内部实习生攻击,损失可能超过千万美元。但上述字节跳动知情人士表示“损失并没有传闻中那么严重”。并且,该人士表示,受影响的业务其实不是豆包大模型,而是商业化技术团队的模型训练任务,也就是影响了广告部门的一些技术工作。
对于该事件当中的实习生田某某,传闻称“被送进去”,但上述字节跳动知情人士透露,处理方式是“辞退+同步行业联盟+同步情况给学校”。
如今大模型蓬勃发展正在逐渐融入千行百业,加上此次字节跳动发生的内部攻击事情,大模型的安全问题无疑会得到更多的重视。张广志认为:“大模型的安全,除了法律法规、企业管理或是软硬件约束,还可以从群防群治、群策群力的视角进一步完善。大模型最终面向用户,在用户侧建立更完善的反馈机制,让AI在陪伴用户的同时,能够反向约束发挥监管作用,是一个探索的方向。”