来源:影视制作
本文发布于《影视制作》3月中国网络视听大会特刊
作者 | 中国传媒大学信息与通信工程学院 路远、胡峰
近年,随着算力、预训练模型和多模态技术的不断汇聚发展,在自然语言和音视频领域涌现出大量人工智能生产内容(Artificial Intelligence Generated Content,AIGC)作品,在聊天机器人、AI作画、虚拟主持人和新闻写作等应用场景中更是热点频出。
2022年11月,美国人工智能实验室Open AI推出基于GPT-3.5架构的聊天机器人——ChatGPT(Chat Generative Pre-trained Transformer),上线仅两个月,用户数量达到1亿。
ChatGPT、GPT-4的爆火出圈,产学研各界对AIGC的讨论、研究和应用热度也上升到了新高度,因此,2022年也被称为AIGC技术元年。
AIGC技术凭借先进的神经网络模型和庞大的训练数据规模,使其能够接受和处理更加复杂的语音、文本、图像等多模态数据,通过融合知识发现、知识推理等手段,实现了知识技术从感知、理解到生成、创作的跃迁。
目前,国内外对AIGC技术的定义并没有统一标准,不同领域、不同研究机构和学者对AIGC技术的定义和范围也有所不同。一般来说,AIGC技术是通过AI技术(如机器学习、深度学习等)自动或半自动地生成内容的生产方式,生成内容包括但不限于文字、音频、视频、图像等形式。国内产学研各界对于AIGC的理解是继专业生成内容(Professional Generated Content ,PGC)和用户生成内容(User Generated Content,UGC)之后,利用人工智能技术自动或辅助生成内容的新型生产方式 [1] 。
本文对AIGC的研究和分析主要聚焦于AIGC用于内容自动化生成的生产方式和技术集合,而非内容生产者视角进行分类的一类内容。未来,随着AIGC技术与PGC和UGC的结合,其将大大提高PGC和UGC内容的生产效率和质量,在实现内容创作的自动化和智能化方面发挥更大的作用。
然而,目前AIGC技术仍存在一定的局限性,其算法和技术仍处于不断发展和完善的过程中,可靠性和普适性仍有待进一步提高和加强。AIGC技术的底层技术和产业生态已形成了新的格局,未来AIGC技术在更多行业的海量应用场景有望打开。
01
AIGC技术发展沿革
AIGC技术的发展历程大致可分为三个阶段:专家规则驱动、统计机器学习驱动和深度强化学习驱动。三个阶段并非完全独立,而是交叉和融合。
专家规则驱动阶段是AIGC技术的早期应用阶段,也是最简单的阶段。在这一阶段,人们使用预定义的模式、模板和程序语言来实现对特定领域的知识和规则进行编码和实现,从而生成特定类型的内容。
这种方法的优点是可控性高、定制化程度高,但是内容生成被限制在规则内,缺少灵活性,无法自动学习和创新且人工成本高,远远算不上智能创作内容的程度。如果涉及特定领域内容生成问题,还需要具有领域知识的专家参与。初期内容生成技术呈现出模板化、公式化和小范围的特征。
随着机器学习和深度学习算法的出现和发展,基于专家规则的AIGC算法已经逐渐被替代或作为其他模型的辅助手段。
统计机器学习驱动阶段是AIGC技术的第二个发展阶段,这一阶段的核心是机器学习技术。利用大量的数据来训练机器学习模型,从而使其能够生成更加优质和多样化的内容。这一阶段的代表性应用包括机器翻译、语音合成、图像生成等。相对于第一阶段基于规则的生成阶段,只需要为统计机器学习AIGC技术提供足够的数据和特征,即可更迅速、更准确、更灵活生成不同模态的数据内容,而无需事先通过人工设计规则,自动化、智能化水平更高。
然而,基于统计机器学习的AIGC方法对数据特征依赖性强,使得算法在领域迁移或者处理新类型的数据时效果不佳。
与此同时,由于机器学习方法的AIGC方法需要大量数据作为特征工程的基础,但某些领域数据可能很难获取或者数据量无法达到机器学习AIGC方法训练数据规模要求,造成模型过拟合或者效果差,因此也限制了此类方法在特定领域的应用。换句话说,基于专家规则和统计机器学习方法的AIGC技术都未能很好地解决算法或模型领域迁移成本问题。
深度强化学习驱动阶段是AIGC技术的最新发展阶段,也是目前最为热门的AI技术领域。在这一阶段,利用深度强化学习和自适应多模态生成等模型,使AIGC技术能够实现更加复杂、高级和创新性的生成,并具有更强的个性化和交互性能,且可以在没有或者少量人工干预的情况下进行自我学习与自我适应,通过反复尝试、调整和优化,逐渐形成对各种场景的适应能力,从而实现更加精准的内容生成。这一阶段的代表性应用包括聊天机器人、AI绘画、AI图像生成等。
相对于前两个阶段,深度强化学习驱动的生成方法具有可定制性更强、可扩展性好且可自我学习的优势,从而在一定程度上解决了算法或模型领域迁移问题,能够更加灵活地调整模型以适应更加广阔的应用领域。
然而,基于深度强化学习驱动的AIGC模型训练和运行具有非常高的门槛。首先,深度强化学习需要大量的数据和计算资源进行训练,且运行过程需要较高的计算能力和存储空间,计算复杂度高,这势必会增加训练和运行成本。除此之外,深度强化学习驱动的AIGC模型的生成效果很大程度上受限于训练数据的质量和多样性,训练数据不足或者质量不佳都会影响模型表现。
作为AIGC技术的重要分支,ChatGPT 正逐渐成为现象级消费类AI应用,而拥有多模态能力的GPT-4 的推出及其与Office套件的融合势必能够引爆应用新热点。
以近期爆火的聊天机器人ChatGPT为例,目前最大的版本ChatGPT-3的训练规模达到了1750亿个参数,需要上万个CPU/GPU24小时不间输入数据,是目前已知最大的神经语言模型之一。而较小的版本ChatGPT-2也拥有13亿个参数。
ChatGPT使用来自互联网的文本数据库进行训练,包括从书籍、网络文本、维基百科、文章和互联网其他文本中获得的高达570GB的数据。GPT-4作为GPT-3的继任者,在多种任务中表现出更佳的性能,包括文本生成、摘要、翻译、问答和对话等。
目前,GPT-4的具体参数规模尚未公布,然而仍可以合理地推测,GPT-4的参数规模将比GPT-3更大,以提供更强大的生成能力和更高质量的生成内容。
ChatGPT与GPT-4成为现象级应用,离不开投喂的高质量数据、广泛的应用场景、持续的资金投入与开发AI产品的边际成本以及悬而未决的全栈集成能力。训练规模越大,模型可以处理的语言表达和语义越丰富,生成的文本也更加流畅自然,但是同时也需要更大的计算资源和更长的训练时间。
开发团队OpenAI也承认“ChatGPT有时会写出看似合理但不正确或荒谬的答案”[2],从而出现人工智能幻觉[3]现象。最新推出的GPT-4同样未能有效解决上述问题,受到道德、安全和隐私方面的挑战。
最为关键的是,基于深度强化学习驱动的AIGC方法通常是黑盒模型,模型的学习过程往往是不可解释的,研究人员难以理解模型为何会做出某些决策,这也会给模型的可靠性和安全性带来潜在风险,可能会导致在其法律和金融等领域或一些敏感场景下的应用受到限制。AIGC的算法和技术目前仍在不断发展和完善之中,未来随着技术的不断进步和算法的优化,AIGC技术将更加成熟和普及。
02
AIGC技术在智慧广电
和网络新视听的应用场景
人工智能技术在广播电视和网络视听领域中的应用正在快速发展,目前主要应用包括视频剪辑和编排、音频生成和语音合成、内容智能推荐等方面。
未来,AIGC技术将会在广播电视和网络视听领域中扮演更加重要的角色,成为节目制作、内容创作、播出和营销等各个环节中不可或缺的工具,辅助提高工作效率和节目制作质量,实现多样化、智能化和精准化的内容创作、推荐和推广,推动行业向智慧化、个性化、创新化方向发展。
AIGC+音视频生成:提高内容生产者创作效率
传统的音视频生产手段通常在初期脚本创作、录制和后期编辑等环节需要大量的专业人员参与,费时费力,且难以实现自动化,逐渐无法满足消费者对于数字内容消费需求的迭代更新速度,供给侧产能瓶颈亟待突破。
随着生成对抗网络(GenerativeAdversarialNetworks,GAN)、变分自编码器(VariationalAuto-Encoder,VAE)等深度学习算法快速升级,使得AI驱动的音频和视频生成技术在广播电视和网络视听领域得到越来越广泛的应用,市场潜力逐渐显现。
音频生成通常利用深度神经网络模型对大量音频数据进行训练学习,在无需或较少人工干预或录制的情况下,自动生成高质量、逼真的音频,同时通过添加噪声、修改音频频率、改变音调等方法,还可以增强音频的多样性和丰富性,生成包括语音、音乐和自然声音等在内的多种音频类型。
此外,音频生成技术还可以根据特定场景或需求对生成的音频进行优化和定制,以满足不同用户的需求。AIGC+视频生成技术基于多个卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、GAN、VAE的组合,学习大量视频中的空间、序列、时间、场景、物体和动作等信息,自动生成具备真实感视频的细节和纹理和更加多样化的视频内容。
同时,根据给定的输入条件,如不同场景、不同人物、不同动作等,并通过视频去噪、色彩校正、边缘增强等后期处理,可以在保持视频逼真度的同时,实现对生成视频的精细化控制以及细节的修复与优化。
音视频生成技术在明星语音合成、智能音乐创作、自动化视频集锦、视频拆条、视频超分、游戏开发和虚拟现实等细分场景中拥有广泛的应用前景,且高效节省了人力时间成本。
2018年,英伟达(NVIDIA)发布StyleGAN[4]模型可以自动生成图片,目前最新的第四代模型StyleGAN-XL生成的高分辨率图片人眼也难辨真假。
2019年,DeepMind提出DVD-GAN (Dual Video Discriminator GAN)模型[5],利用计算高效的判别器分解,扩展生成时间更长、分辨率更高的视频,在草地、广场等明确场景下表现不凡。
2020年全国两会期间,人民日报社利用“智能云剪辑师”实现自动匹配字幕、人物实时追踪、画面抖动修复、横屏速转竖屏等技术操作,快速生成视频以适应多平台分发要求。
2022年冬奥会期间,科大讯飞的智能录音笔通过跨语种语音转写2分钟快速出稿,央视视频利用AI智能内容生产剪辑系统制作与发布冬奥会冰雪项目的视频集锦,极大地提高了制作效率,缩短发布周期。
利用AIGC技术生成音视频可大幅减少时间和成本,提高生产效率,同时保证作品一致性和稳定性。其次,它能生成高质量、逼真的音视频内容,允许创作者更好地表达创意和想法。然而,AIGC技术在音视频生成方面也存在一些局限性。
首先,AIGC技术目前还无法完全替代人类的音视频创作,因为人类的创作具有更加复杂的情感和思维,能够表达更多元化的创意和想法。
其次,AIGC技术还存在一些技术问题,例如在生成音视频时可能存在一些不真实的细节和瑕疵,需要不断改进和优化。AIGC技术也需要大量的数据和计算资源,才能够达到更高的生成效果和质量,这也对技术的使用和推广提出了一定的挑战。
AIGC+虚拟主播:推动虚实融合多样化进程
近两年来,虚拟主播成为广电领域内热门话题。许多虚拟主播逐渐崭露头角,其中包括中央广播电视总台的“小小撒”和“AI王冠”,以及北京广播电视台的“时间小妮”、湖南广播电视台的“小漾”、东方卫视的“申雅”、“东方嫒”、浙江卫视的“谷小雨”等等。
这些虚拟主播已经成为广电领域中的高新技术标配产品,越来越多的虚拟主播也正在走上前台。在众多虚拟数字人好看的皮囊下,离不开AIGC技术赋能。虚拟主播是指由计算机程序生成的具有人类形象和行为的虚拟人物,目前已成为广播电视和网络视频领域中越来越流行的一种形式。
AIGC技术通过深度学习算法对大量人类主播的视频和音频数据进行分析和学习,从而生成具有逼真、自然的语音和动作的虚拟主播,展现与真人主播无异的信息传达效果。虚拟主播不受时间、空间的限制,可以随时随地出现在直播、电视节目等各种媒体中,成为一个可以为人们提供有趣、实用、便捷服务的新型媒体形态。
此外,虚拟主播也可以通过各种动画特效、配音等手段进行二次创作,创作出各种风格独特的视频内容,为广播电视和网络视频领域注入更多的创意和活力。
虚拟主播的出现和发展,极大地丰富了数字内容的形态和表现方式,对于拓展数字媒体的应用场景具有重要意义。2022年两会期间,百度利用AIGC技术生成虚拟数字人主播“度晓晓”,通过多模态交互技术、3D数字人建模、机器翻译、语音识别、自然语言理解等技术,能够快速、准确地播报新闻内容,且具有自主学习能力。
“度晓晓”
与此同时,新华社、中央广播电视总台、人民日报社以及湖南卫视等国家级和省市级媒体都在积极布局AI虚拟主播技术,并将其应用场景从新闻播报扩展至晚会主持、记者报道、天气预报等更广泛场景,为全国两会、冬奥会、冬残奥会等重大活动深度赋能。
北京广播电视台发布了中国首个广播级智能交互数字人“时间小妮”,它利用先进的人工智能视频合成技术,包括人工智能、深度学习和卷积神经网络技术,经过情绪仿真引擎处理,创造出高度逼真的“数字人”,其外貌、语音、口型、肢体动作与真人相似度达到97%。该数字人可用于营销宣传、新闻报道、教育教学、智能问答等多个领域,并且拥有广播级别的智能交互功能。
“时间小妮”
虚拟主播通过AIGC技术可以实现24小时不间断播报、无需人工休息,解决了传统主播工作中存在的疲劳和失误问题。同时,虚拟主播可以在短时间内适应各种语调和风格,满足不同类型节目的需求,提高了广播电视和网络视频制作的效率。
然而,虚拟主播也存在一些局限性。首先,由于缺乏人性化的情感表达和传递,虚拟主播还难以完全取代传统主播的角色。此外,虚拟主播的知识和信息来源受到限制,需要对其进行不断的数据训练和更新,才能满足用户不断增长的需求。
AIGC+内容审核:助力审核高效化发展
随着数据驱动的经济社会的快速发展,音视频和文字内容的传播量呈现爆发式增长。然而,这其中也存在不良、低俗、暴力等违法违规内容的情况,对社会的稳定和公序良俗带来负面影响,因此需要更加全面、高效和细致的审核方式。
AIGC技术在广播电视内容审核方面发挥着重要作用。相较于传统的内容审核方式需要耗费大量人力物力,AIGC技术能够通过自动识别和分类技术快速准确地对大量内容进行筛查和审核。
例如,通过语音识别和语义理解技术,AIGC技术可以检测和识别内容中的敏感词汇和暴力内容,从而对违规内容进行标记和删除。
此外,AIGC技术还能够通过图像和视频分析技术监测、识别和过滤不良内容,如色情和暴力画面,从而帮助广播电视机构更好地维护社会公共秩序和道德风尚。
腾讯与虎牙成立安全联合实验室,共同建设AI智能审核平台。虎牙结合自研“AI智能识别、人工审核和网络志愿者”三位一体模式,腾讯则全面开放“AI+大数据”内容风控安全技术,共同优化内容识别能力,以营造更为安全的内容生产环境,应对直播平台内容风险和威胁。
百度提出“AI内容风控”概念,通过应用图像识别、富媒体识别、NLP、分类/聚类、关联挖掘、机器学习等技术,对违法违规、垃圾信息、内容质量差等情况进行风控,可跨场景判断,实现对多种内容的风控,其中99%的信息在上线前被自动拦截,减少了人工劳动。
AIGC技术能够通过自然语言处理和图像识别技术快速对大量的数据进行处理,识别和标记涉黄、暴力、政治敏感等不良信息,帮助审核机构和平台快速发现并删除违规内容,提高内容审核的效率和精度。
然而,AIGC技术仍然无法完全替代人类审查,可能会漏检或误判某些内容。此外,AIGC技术本身也存在一定的局限性,例如难以识别复杂的隐喻、讽刺等语言形式,难以理解某些具有特殊含义的图片、视频等内容。
因此,在实际应用中,需要结合人工审核来提高审核的准确性和可信度。
AIGC+智能推荐:完善用户个性化体验
随着用户需求的日益个性化和多样化,在内容智能推荐领域,AIGC技术同样蕴藏了诸多可能性,助力增强广播电视和网络视频领域生产力。AIGC技术通过对用户的观看行为、视频偏好等数据进行分析,建立完整的用户画像,智能推荐符合用户兴趣的音视频内容,还可以通过生成个性化的音视频内容来满足为用户生成个性化的新闻播报、广告宣传等内容特定的需求。
目前,央视视频、芒果TV、腾讯视频、爱奇艺、优酷、今日头条等平台均结合AIGC技术分析用户行为和兴趣偏好,分析用户观看历史、搜索记录、点赞、评论等细粒度数据,为用户提供针对性更强、内容更加精准的视频推荐,为用户提供更佳的观看体验。
AIGC技术在智能推荐的应用为广播电视和网络视频行业的发展带来了巨大的推动力,不仅促进了视频内容的多样化、个性化,提高了用户的满意度,还增强了广播电视和网络视频领域的用户黏性和竞争力。
然而,AIGC技术在个性化推荐应用中仍存在一些局限性,如对用户数据的依赖性、算法不透明等问题需要进一步解决。
03
总结与展望
随着数据规模快速膨胀、算力性能不断提升以及人工智能算法不断发展,AIGC能够替代内容创作者完成更多内容挖掘、素材查询调用等基础性劳动,创新内容生产范式,为更具艺术性和创造性的内容创作提供可能。AIGC技术也将会进一步提高生成内容的质量和准确度,使得其在视频制作、音频制作、文本创作等方面的应用更加广泛,进一步丰富用户体验和提升市场竞争力。
值得注意的是,以ChatGPT和GPT-4为代表的AIGC技术或将给各行各业带来一些变化,也势必会给广播电视和网络视听行业带来一定机遇和挑战。
ChatGPT和GPT-4能够被广泛应用于多模态任务,辅助提高内容创作、编辑和审核效率,推动创造新的互动范式,为智慧广电与网络新视听带来创新可能性,同时推动行业向更智能化、个性化和高质量的发展方向迈进,以提升用户与设备之间的交互体验,包括语音交互、内容推荐、视频自动化处理、内容审核和广告精准投放等场景。
可以预见的是,随着人工智能加速迭代,未来AIGC功能势必越来越强大,应用领域越来越广阔,人工智能或将会取代一部分创造性以及创新度不高的工作,这也会倒逼广播电视和网络视听行业从业人员不断提高创造力和创新能力以构建自我的不可替代性。
然而,AIGC技术的应用落地仍然面临技术安全性、版权保护、隐私保护和算法不透明等的挑战。解决这些挑战需要通过不断的技术创新和改进优化来提高AIGC技术的精准度和实用性。
与此同时,为了更好地应对新兴AIGC技术的带来机遇与挑战,广播电视和网络视频领域更要继续加强多维互动合作、共同研究,推动制定相关的规范、标准和政策,以保证AIGC技术的合理使用与可持续发展,打造行业发展新增长点,推动孕育新业态。
热门精选