与AI对话。
AI生成的内容正在悄悄重塑这个时代的表达方式。
一项技术在何种阶段会给人带来如此具象的感受?可以是它的新锐概念横空出世之时,也可以是它真正产出了什么,让人感到震撼触手可及之时。AI完成了前者,AIGC完美地演绎了后者。
机器的效率介入人类的思想,共同创造出更好更快的产出,这让AIGC成为了2023年初的明星话题。
AIGC的强大体现在何处?AIGC遭遇到挑战会有哪些?AI与人在内容生产中的关系会如何重新定位?
为了更直观地探索这些问题的答案,1号采访了开域集团董事长兼CEO施侃和某AI产品负责人江江,从与他们的对话中了解当今的内容生产行业如何理解AIGC,AIGC又如何反馈于这个时代。
AIGC之「强」
引爆、点燃、大地震…这些都是人们用于AIGC对某个行业产生影响时的常用词语。就算在词语含义不断延伸,夸张手法随处可见的当下,我们还是能感受到AIGC那种无法掩盖的「声势浩荡」。
通俗一点来说,生成式AI的主要任务往往分为两大块:一是从需求者的需求描述中提取到相应的信息,二是根据所提取到的信息生成符合需求者想象的内容。
而要更好地完成这两块任务,对于一款AIGC产品来说也需要在两方面有着足够的优势,一是大模型的研发能力,二是产品化的能力。
在大模型方面,光从国内各大企业对于大模型的投入与打磨就能感觉到这个赛道浓厚的火药味。百度的「文心一言」、阿里的「通义千问」、华为的「盘古」、腾讯的「混元」,商汤科技的「日日新SenseNova」大模型体系均在这个春天大爆发。这些带有中国传统哲学和神话色彩的名字,预示着中国式AIGC格局正在逐渐建立。
大模型的研发能力对于向上的产品具有关键性的支撑作用,也是AI时代各大企业抓住新一轮风口必不可少的能力。但其中,不是所有模态的生成式AI都具有成熟完备的大模型可以应用。
在属于音频领域的AI音乐生成方面,江江解释到,相较于文本、图像等形式,在音乐这个垂直领域里目前没有特别成熟的可商用的大模型。比如做端到端的音乐生成,往往得出来的结果很混沌,不可解析、不可应用,但以工业应用为导向的音乐AIGC一定是基于它的不同形态、不同词曲部分的独立性和可拆解性。
在产品化方面,AIGC的技术应用基本都是根据目前用户在创作场景中的需求来设计。因此,对于用户需求的理解,在一定程度上也决定了AIGC的有效性。
开域集团的产品Q.AI是一款基于视频理解的检索技术实现视频智能生成的产品,在这款产品中不仅强调「生成」,也强调了「检索」功能。在问及Q.AI为什么是这样的一个产品定位时,施侃回答道:
我们发现,在当前阶段,虽然有AIGC工具使用需求的人越来越多,但需求与需求之间也有差异化,并不是所有用户都需要用它直接完成视频的生成。很多用户需要的是尽可能多的、不遗漏的搜集与工作任务相关的主题素材,进而为他们的创意思路提供参考。所以,为了满足这类人群的需求,我们将「检索」作为重要功能之一。
「检索」功能体现的恰恰是机器深度理解的过程,一个不会“检索”的大脑是不可能“生成”高质量内容的。Q,AI的技术核心,就是通过对海量视频库中影像、音频、文字等多模态信息进行提取和分析,通过多模态搜索算法,筛选出与用户搜索信息有关联的素材内容,为用户后续的视频创作提供匹配的素材支持。
在AIGC音乐方面的应用,面向不同层级的音乐人,AIGC在垂直领域可以做更细致的产品。AIGC整个大方向,已经阶段性的从学术引领、技术驱动转型到产品化、落地侧的应用层面。可以说,本身AIGC的发展已经到了一个非常需要产业化,需要接触用户,进入用户,然后体现用户价值和产品价值的一个重要阶段。目前,业界在做AIGC音乐的产品时,也会非常关注这些。产品化过程中,发现用户,可能是专业音乐人、可能是新手音乐人,可能是音乐爱好者,并且真正为这些音乐用户提供价值是产业目前阶段阶段的目标。我们都在探索用AIGC产品给用户创造新的价值,并且留住他们,让他们在平台上持续产生消费和内容。
不难发现在每一个细分领域里,建立在这种新型内容创作方式所发挥出来的技术优势之上,AIGC与多元化的艺术形式、商业行为形成互文,构建起新的秩序。大模型的研发与产品化的设计凝结成一种全新的「生成力」,为各行各业赋能。
也就是说,当我们去理解AIGC时,不只是能看到AI所生成的content,更是这些content的聚合生成的cosmos。AIGC的大爆发和激烈竞赛,都是在组建一个新的活力世界,作为AI时代的象征,也作为AI时代的本身。
AIGC之「忧」
当然,一个新时代的产生本身就是一场应对未知的探索。
我们见证过AIGC强大的生产力,也见证过它渗透进各行各业的执行力。「生成」二字相对于「生产」,有一种微妙地对于结果的偏向,实际上评估AIGC效用的关键方面,就在于结果。
这种结果,在于足不足够「新」、足不足够「好」。
「新」,指向的是生成结果同质化的问题,这个问题在AIGC的音频视频和图像生成领域争议更甚。
在AIGC的线索中,「训练」是不可或缺的基石。机器同样需要通过「学习」来获得书写答案的能力,无论是文字图片,还是视频音频。而人们对于机器的想象,大多偏向于一种「程式化」的想象,这意味着输出结果按照一种特定的模式来形成。从依赖AI的使用者来说,需求描述却并不特定,甚至所使用的描述语言有很大概率是相似的。那么输出结果的「同质化」也将是AIGC面临的大问题,如果形成过程高效、但形成结果不可用,则依然背离着人们对AIGC的期待。
施侃的视角跳出了这种传统推测因果关系,认为从前提上来说,当创作越来越简单,就一定会出现信息的爆炸,这自然难以避免同质化内容的出现,但这不是AI本身的问题;而从后果的层面,智能化工具在视频创作领域的在总体上有助于视频质量的提升,比如在十年、二十年前拍视频是一件很专业的事情,但后来随着技术的发展及设备的提升,视频创作变得越来越容易,而且质量越来越高。新技术总是利弊相依,而施侃的思考重点在于AIGC本身并不是为了生产而生产,而是为了更好的创作而生产,摆脱线性的思维窠臼才能放大一项新技术的「优」。
江江的视角更「远」——从更长的时间维度来看,同质化的内容并不会被留存。
如果过度依赖于AIGC的「学习成果」,就很难界定这个作品是「谁」的作品。于是同质化在所难免,其中纠缠的内容可用性、版权争议等问题无疑会成为AIGC铺陈开来的一大单路虎。
除此之外,回到最现实的问题上,AI能够生产出令人满意的内容吗?在「人」的思考链路中,对于一件作品的精细打磨总是有具体的理由,也有具体的操作,也能产生具体的后果。但是对于AIGC而言,这不是人类与自己的对话,它考验的也不仅仅是AI的能力,也是AI与人类沟通的能力。何种「驯化」才能达到需求方的预期?
从AI视频生产的领域来说,施侃认为「能否为用户提供与关键词匹配度高,且足够精美的成片」是它能否受到大众认可的关键。以开域集团自主研发的AIGC技术平台——Q.AI为例,开域集团在研发之初,就希望让每一次成片都能与用户输入的提示语或视频文本产生强关联,形成精美,自然,并且有逻辑的视频作品,这就意味着,准确理解文本上下文、根据文本准确匹配或生成相关视频素材的能力,是至关重要的。
江江则用「拟人化」来形容音乐AIGC做出好产品的关键之处。从需求定义出发,最完美的交互形态是人无障碍地与计算机交流。程序员本身承担的是什么呢?本身承担的也就是人跟计算机交互的成本。如果计算机更趋同于人的话,那中间的这些东西都会被省略掉。
如果AI生成的音乐需要符合需求者的想象,在架构上就该定义清楚它自己的场景和需求。同时它是用自然语言的方式在跟机器交互,应给到机器更多的需求并且从机器处获得反馈,最终产生真正符合用户所需要的东西。但这是一种理想化的终极形态,业界目前的计算水平还并不能够完全的达到这样的效果,但我们依然朝着这个方向努力。
如果更直白去描述AIGC的工具性质,也就是向其输入一些什么,最后获得一些什么。每一种新的内容生产形式的诞生,几乎都是对于人类「理解吸收」的过程提效和结果优化。比如从文本到图片到视频,蕴含的是不同时代的主流表达。
而AIGC更多地作为为这些既有内容形式创作赋能的角色,是一种劳动文明范式的转变。它需要对于人的思想去理解吸收,反过来创作出更容易被受众理解吸收的作品。在这样的输入输出端满足不了人们的预期,是AIGC遭到的所有挑战的根本。
AIGC与「人」
江江提到的「拟人化」,让人联想到一个很经典的问题。
到底AI与人之间的「二元对立」是否成立?
深入研究视频智能生产的施侃认为,与其说AI对于人是一种「替代」,更不如说这是一种「辅助」。
智能剪辑对于行业的意义,是通过技术能力提供一种高效的解决方案,它的作用是辅助有剪辑需求的人用更低的时间、精力、金钱成本完成工作任务。与其他源于AI技术的应用一样,智能剪辑诞生的初衷是为了帮助有剪辑需求的人从重复性的工作中解放出来,也就是说,那些已经形成套路,不再需要太多创造力的环节,可以交给AI来完成。这样一来,人们就可以把更多的精力放在需要投入创造力的环节。
如果想让机器服务于人类的意愿,人们就必须保持创造力,并用创造力去引导技术的发展。在智能剪辑场景下也是如此,人类必须更加注重打磨自己的创造力,这也是人类不可被机器替代的核心价值。
「音乐」似乎是更备受争议的一种形式。那些伟大的音乐作品往往注入了创作者的经验与对世界的感知,凝结着属于那些时代的流动的思想。就算是流行歌曲,也凸显着一个音乐创作人的想象力。
AI生成的音乐,往往被理解为空旷而无意义,不是作品,也很难说是产品。
江江更偏向于认为AI生产的作品本身不会产生任何的意义。
整体来说,如果人类一直在以一种争议的态度去讨论这个问题,有可能会阻碍AI真正帮助人类提高生产力,甚至阻碍人类文明的进程。从短期来说,AI制品泛滥一定会有负向的影响,可以想象到AIGC的作品必然会被一些人用来做黑产,这对音乐人原有生产模式会是一种挤压。
但长远来说,音乐人依旧是获益者。比如对于专业的音乐制作人,AI可以在demo生产的阶段为制作人的灵感服务,AI的应用逻辑是超级个体的逻辑,它能够将个人的体量变大,善于运用AI可以让一个人变成一个工作室;对于具有商业化目的,需要大批量生产可商用音乐的需求者而言而言,AIGC的应用可以帮助他们用比较少的精力去生产一些放量式、大批次的音乐。
这同样是一种「辅助」的概念。说到底,AI与人的角色关系,重点在于AI生成与人的生成构成怎样的内容连接。相较于前AI时代创意资源的生产与整合,目前对于AI时代下的人才需求重点在于对AI工具驾驭的能力。
那种对于旧规则的「威胁」,是时代转型阵痛期下不可避免的秩序坍塌与重建。江江用「人机协作」来描述未来智能音乐生成的趋势,这也折射的是一种AI产业应用的期待。「人」不会从生成的行为中隐身,而是换作更高效的「对话者」与作品/产品和机器/AI对话。
通过考验之后才能共赢。
1号结语
未来的AIGC,对于内容生产的全链条领域会产生洗牌的效果。
相对于有迅速熄火之势的元宇宙,AI这把火是越烧越旺,火光中是资本的投融资行为、企业的招聘行为、打工人的学习行为。
尽管有很多争议的声音,甚至AI研究被叫停。但目前来看,大多数人是兴奋的,新时代的到来总是令人感到兴奋的。「任何足够先进的的技术都等同于魔术」。
一场席卷全球的现实主义魔术表演大秀,好戏正在开场。