人工智能数据集的偏差会影响广播公司及新闻媒体讲述故事和文化叙事的方式。
如今,多模态和生成型人工智能正在塑造媒体公司讲述故事的方式,使他们能够分享更多引人入胜的故事。凭借这种新一代人工智能,媒体公司可以描述视听媒体所传达的内容,从而实现相关内容的快速搜索。然而,利用人工智能进行视频检索的挑战之一是,数据集不能反映世界的多样性。大多数数据集是在西方国家用英文创建的,并未考虑语言使用者的全球实际分布情况。 名为“Hugging Face”的人工智能模型平台专注于人工智能与自然语言处理,致力于推动先进的机器学习技术变得更加开放、易用并实现协作。在该平台上,全球超过65%以上的数据集是用英文创建的,而使用阿拉伯语的数据集还不到4%。鉴于全球有4亿人以英语为母语,3.7亿人说阿拉伯语,这两个数据集的比例极不相称,其形成源于多个因素。英语作为研究和交流的通用语言,影响着数据集的创建。此外,市场规模驱动着与语言相关的研发投入和质量提升,影响诸如转录准确性等各方面性能。 人工智能数据集的偏差会影响广播公司和媒体公司讲述故事和传达文化叙事的方式。例如,照片上戴着方头巾的阿拉伯男子可能会被人工智能错误地识别和描述为穆斯林妇女戴的面纱。这种情况被称为“幻觉”,导致这一误判的原因是,人工智能训练时用的数据中所含女性盖头和男性头巾的示例有限或根本没有,因此它对这种中东服饰及其佩戴习俗缺乏了解。要解决这个问题,就必须不断地将不同来源的文化信息添加到现有的数据集中。 一种解决方案是“提示管理”,涉及到调整搜索提示的内容以获得更好的建议。使用人工智能绘画工具“Midjourney”生成一张主题为“研究人员有了新发现”的照片,可能会得到四张不同呈现的照片,照片中的人物是一位40多岁的白人男子,身着白衬衫或实验室工作服。调整提示内容并规定其他文化元素和性别要求,可以改善搜索结果的多样性。有人曾试图用谷歌的人工智能模型“Gemini”解决这一问题,但面临着多种不利因素,例如一些历史图像生成描述不够准确。 另一个选项是“模型微调”,意味着为特定的任务调整现有的模型。与其从零开始重新训练一个新模型,不如向基础模型添加额外的数据。这样做可能会很有效,但要达到预期效果,人工智能工程师和业务专家必须共同努力,提供现实世界中的应用场景和必要的数据。 将多模式综合法(即多重感觉模式)应用于人工智能可以进一步改善视频检索结果,还能降低某些人工智能幻觉的发生概率或频率。与仅依赖单一数据源进行检索不同,多模态人工智能会考虑多个数据源,例如目标对象、所处语境、地理位置、文字材料、面部识别、维基数据、品牌标志以及其他视觉形态、录音文本和翻译文稿等。利用集体记忆、个人经验、听觉以及时空概念,在进行多模式人工智能检索时,元数据会将用户引导至精准时刻,并提供用户需要的确切语境。 从长远来看,与开源软件社区共享附加数据,促进研究团队之间的多元化发展,将对直接影响文化表征大有裨益。 (本文作者弗雷德里克·皮特庞特系Moments Lab公司联合创始人、技术总监;编译者系中华广播影视交流协会工作人员;来源:中东专业广播杂志网站2024年4月8日文)01有些数据集不能反映世界的多样性
02如何减少人工智能生成内容中的偏差
热门精选