从短剧、音频到二次元社区，大模型创业者如何用AI重塑内容形式及生产模式？

极客公园 • 1月前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

AI时代，在大模型能力还在进化、还在苦苦寻找PMF之前，创业者之间的交流和共识似乎变得更为重要。

一次成功的尝试，或者是失败的反思；

或者是最近的创业新方向和新收获；

或者是对于某个垂直领域的新观察。

……

3月23-24日，由上海市人工智能行业协会（SAIA）主办的 2024 全球开发者先锋大会（2024 GDC）在上海成功举办。同期，3月22日，Founder Park 也邀请了四位创业者，在大会周边进行了一场闭门交流分享，畅谈他们在过去一年内AI创业的得与失，进行了一场大模型创业的认知碰撞与对齐。

我们节选了嘉宾分享中，对于AI如何影响内容创作者、如何改造不同内容的生产流程，甚至如何满足小众人群的内容闭环的一些精彩讨论。

交流嘉宾介绍：

朱江井英科技创始人 & CEO

胡修涵：捏Ta 创始人

吕睿韬（秀才）：喜马拉雅珠峰 AI 产品研发总监

尹伯昊：猴子无限创始人 & CEO

再次，特别感谢上海市人工智能行业协会、出门问问、上海西岸集团对本次活动的支持。

01 AI短剧≠AI+短剧，而是全新的内容生态

分享嘉宾：井英科技创始人 & CEO 朱江

在这部分，他分享了目前对于AI短剧行业的观察和心得。

今天的短剧和免费小说有非常大的关系。最早拍短剧的人，就是免费小说的广告演员，还有那些给免费小说投广告的广告代理公司。大家发现，这种短剧其实本身就挺好看的，不一定非要去看小说了。2021 年开始就有一批先行者，到2022年发生了一个关键的点，就是抖音和微信小程序之间打通了。这导致大量的公司可以通过抖音买量，然后跳转到微信小程序里。原来那些做免费小说、新媒体的人通过短剧的方式，把 ROI 跑起来了。短剧的前身其实就来自于免费小说。今天短剧的兴起可以讲就是免费小说的一个升级版，是视频化的小说。

为什么是小说，因为一次性看不完，需要反复看，和抖音短视频的逻辑是不一样的，这是一个很好分发的点。

从体验上来看的话，在AI上面还要往前走，交互上也会有新的变化，你要想它其实不是个剧了，能看、能互动，这是一种新的内容，只是现在看起来是视频化的，

换句话说，如果今天用AI去做Vision Pro的空间视频，可能就会变成另外一种媒介。但可能还是需要一个过程。

这次创业，我们用 AI 来生成视频内容，也是做短视频的，从广告到短剧全都覆盖。但是我有个非常大的体会，就是一定要做优质内容的创作。优质的内容创作在市场上是有价值的。 但凡一个娱乐型的、充分竞争型的内容市场，优质是一个入门的门票 。没有优质内容，最终迟早要被淘汰。

我们会觉得竖屏短剧不是短视频，是个新东西。其实是个长视频，只是切短了之后变成了一集一集的连续爽点，很密集的呈现方式。 长视频在于追，短视频在于刷，体验是不一样 。

竖屏短剧这种形态是个新的分发渠道的机会，就是国内、海外用户刷竖屏短剧在哪刷？没有一个人有这个心智，国内海外的用户都没有一个固定渠道。

第二个问题其实更关键， 内容供给 。

我们设想，如果要 1000 万 DAU 的话，大概需要 1000 部好剧，按照现在的爆款率，需要1万部剧打底。现在中国的整个的供给量是多少呢？一年 3000 到 5000 部剧。

现在内容的消耗量根本撑不住这么大的DAU。所以我的判断是 短剧的需求端被验证了，但是问题在供给侧 。如果不用 AI 生成方式的话，不可能成为一个平台，这是我的判断。

现在的月活的短剧用户量已经是1.2 亿，这些内容刷完了就走了，留存不下来。当你真的要聚成一个内容平台的量级，是不可能用现在的工作室方式去拍的。

这个跟以前的网文小说不一样，作家写作，只有时间成本。但是你说一堆人凑在一起，演员、服装、道具、摄像，他不可能为了兴趣去拍短剧，团队成员都要吃饭的。所以制作方一定要付钱，成本是一方面，制作内容的效率也很低。 AI 的好处是在于，它并不是提高内容上限 ，但是AI可以把团队的事情变成一个人就可以做。如果你能够达到优质的基线，让这些有能力的创作者一个人就能创作的时候，这个内容供给才能够打开。只有用AI降本增效到这个程度，平台才能够出现。

我觉得今天短剧的赛道，也还只是下半场的开场 。

中国市场真人拍摄的短剧，年产量才 3000到5000 部。我去年和客户、投资人都在讲，今后用户一定分不出来AI和真人拍摄的区别，未来就是 AI 内容的时代。

从现在的角度来说，至少站在海外平台的视角来看，竞争还没有绝对的胜负的方式，现阶段存在一个阶段性的机会，因为Netflix、Disney以及其他的视频平台现在对于竖屏短视频的认知还没到这个点。国内的话，大平台可以一次性把内容团队都收了，就没什么机会了。

提问： AI 在多长时间之内有机会成为视频的创作者？

这个是很好的问题，我们觉得短剧还是一个PGC，但AI有点区别。

我觉得 AI 时代不太一样，不是PUGC， PUGC 是专业的人去创作，而AI是让一部分本来不专业的人，因为 AI 解决了下限的问题，用户用AI工具成为了可以生产内容的专业人士。

我们会觉得其实真正最终能代替抖音的未来平台，现在的AI体验还要往前走，只有AI短剧是不够的。

短剧可以是AI时代的内涵段子，但不是真正的今日头条或者抖音，但是它是在那条路上，是其中很重要的一块。而其他内容体验的提升有赖于其他 AI 能力的补充。

提问： AI 时代的个人创作者会呈现非常强的头部效应吗？

坦白来讲我们内部也有分歧。一种观点是认为超级个体会崛起，厉害的人会变得更强，因为效率提升了。还有一种观点就是，能人的数量也变多了，不会变成像Netflix或者爱奇艺的上游一样被少数的内容制作方所控制的局面。

所以我感觉，一开始超级的内容创作者会崛起，但是慢慢会有更多的人进来。顶部可能是个百万量级的存在，然后腰部也会有更多创作者数量的提升。

02 AI让小众群体的内容闭环不再是问题

分享嘉宾：捏Ta 创始人胡修涵

在这部分，他分享了捏Ta 切入二次元内容社区的观察和判断。

我第一次理解数据驱动不能解决很多东西，包括不少内容的问题，是在联合利华工作的时候。

联合利华当时会给厨师做分享菜谱的社群工具，用来作为提升调味料销量的一种方式。为什么是建社群？其实明明有不少不那么曲线救国的方式：直接发优惠券、线下超市铺货等，为什么要社群，其实是他们在整合零散渠道的优质内容，进行社会化创新。

如果把菜谱当成内容，厨师就是创新菜的驱动力，在食材之外，调味料也是菜谱的关键要素。但这个部分，制作调味料的厂商其实很难理解怎么做创新，因为没有那么多的数据反馈和数据驱动，只有销量数据，而销售数据其实滞后于民众的口味变化。

那什么反馈是最快的？

如果一个厨师在一道川菜里放了甜口的调味料并且大受好评，周围的厨师就会很乐意分享这个食谱，如果能第一时间获取到这个菜谱，就可以进行调味料的创新。某种程度上来说，这是厨师的Github。

而为什么一直没有内容的Github呢？

因为内容的 Github很难做，大家要凝聚共识，要互相讨论，但内容又是个很主观的事情，所以编辑部需要有主编拍板，因为要有核心创作的最后决策。

但是这件事对于更高效的AI时代的内容创新，已经不是最高效方案了。比如说小众爱好的内容创作，一直有内容创新的瓶颈，因为它的供给和消费的循环没法建立起来，人数太少了，没有足够的创作者去创造内容，就会导致消费也循环不起来，然后社群就会消亡。

但是这件事情本身的价值其实很大，小众人群的内容可以构成共识，而共识会形成很大的价值。

那么，今天的AI就可以改变这种现状。

AI改变了内容创作的协作流程，但不是像Reddit那样进行像素级别的协作，那只有行为艺术价值，但结果没价值。

但如果在角色上，或者基于某些特定的概念，如果我们有共同的创作目的，我相信在AI的帮助下，是可以自下而上产生好内容的。我们花了一年时间，至少做了30多个新媒体账号，在小红书和视频号上跑出来成功的案例，而且这个是跟非AI内容一起竞争取得的结果，我们觉得这算是找到了Content Market Fit了。

这其中最重要的一点就是 AI as Composer，not Creator。

最终的内容还是由专业的人来供给，大家一起参与把一个角色玩起来变成一段剧情，这段剧情可能是PGC创作或者其他的用户来供给，我们可以把角色世界观、场景以及发生的剧情重新拆出来，一点点控制变量，让AI去补到足够好，最后的结果还是有人愿意看的，有足够消费属性的。这样最终通往一个真正的AI-native内容形态。

比如说这张图，其实就是用户提议做CP图，柯南和灰原哀，然后AI生成了这样的图，这张图在B站获得了两百多的点赞。东西是人想的，但是AI很容易把这个想法还原出来，甚至还能带点意外惊喜。

基于这样的形式和内容要求，我们在初期其实也是切入到幻想和二次元类别。因为这些类别上有成熟的创作模式，比如Lofter上的同人内容。

在此基础上，会发现这个模式其实不支持长叙述，只能支持一定程度的短叙事。同样是互动叙事，橙光模式就不适合，因为橙光的游戏是追求长叙事，讲究前期的引导和后期的解密，是常见的草蛇灰线的模式。什么样的内容适合做呢？像《名侦探柯南》《哆啦A梦》这样长线由剧场版推动、短线由单元剧推动，然后基于角色base、事件base来展开的内容内核就很好。

用户会因为角色或者事件参与进来，还有就是用户对于角色的故事线（角色驱动）是有预期的，比如成长环境、家族关系、社交等，都是可列举和填充的，但如果是故事支线驱动（情节驱动）的，这个分支就没法枚举，无法预料。

这些内容的创作者，也不是目前已知的优质创作者，因为他们（现有优质创作者）都被他现在能做好的内容形式绑定了，只能去一个Ta不被看成是优质创作者的地方淘金，然后通过各种创作活动或者比赛，挖掘出其中的好苗子，而不是一开始就征集到好的创作者。

而最终，每个人都能参与创作，也能享受看故事的乐趣，看自己的故事的乐趣。

03 大模型的核心是降低用户创造内容的成本

分享嘉宾：喜马拉雅珠峰 AI 产品研发总监吕睿韬（秀才）

珠峰AI将在今年推出他们的语音大模型，在语音生成上能力更强。秀才则从语音生成的角度分享了他对于大模型如何改造内容生产的理解。

从定义来说，什么是大模型？我们觉得人就是一个大模型。人从小到大、从无到有，进行了不同角色的转化，不同能力象限的提升。把人拆解的话，我们认为人是由三部分组成的，分别是形+语+意。

形是是指人的外设，包括形象、动作、神态表情等。

语就是语音交互，从宝宝出生到成长，一直是语音交互的，语音信息里40%是文本， 60% 是富语言信息（情感情绪、韵律、口吻等）。文本本身是一个概念抽象的内容，但是语音的富语言信息是有情感的、有特性的，语音更有温度、更多样性，所以语音也是人“成长”过程中很核心的一环。

意就是思想智慧，构建这部分的就是大语言模型。

所以我们的诉求就是打造一个具有角色人物视觉外设，有情感、有垂直任务能力的大模型。一定是垂直任务能力，只有在一个垂直任务能力上做好， 单点击穿才是有壁垒的，什么都做 60 分不如做一个90 分 ，选择的核心逻辑是聚焦。

我们对整个模型的思考，核心应该是让用户充分把AI用起来。 这一代的大模型核心是把创造的边际成本降低，让用户充分参与进来 。大模型就是超越用户现有的能力，对用户做增益。那我们觉得语音这条线的增益就是 让用户可以具备超越自身限制的语音语言能力 。

我们构建的第三代语音大模型，相比行业内第二代模型，不仅仅对音色的还原度极大提高外，还完美还原韵律腔调和口吻，同时支持音频prompt和文本prompt两种方式提示方式调整音频创作效果。

用户使用15秒的声音作为音频prompt喂给大模型，可以迅速得到完美复刻，而且是原有韵律和腔调的，然后用文字prompt来调节输入音频文本的音色，或者音频中要包含的各种情感，都可以直接调整。 这就是一个创造力再造的过程，把创造的能力不断放大 。

大家一定要重视数据工程产品的建设 。相较于文本标注来说，视频标注和语音标注非常难，我们现在会先用模型自动化标注提供算料处理效率和质量，另外我们甚至还有100多个“音视频导演”来做数据处理管线的设计，只有用专业的人才能做出高质量的数据。强大的数据工程产品是构建富有产品竞争力多模态大模型的基石。

AI 让所有人都可以成为创造者

现在很多家都在做数字人，我们在这方面的思考是，我们认为未来的这种交互形式，或者说内容形式，一定是 AI 生成的。我觉得 未来只有 AIGC ， PGC 和 UGC 只是 AIGC 的过程，它们给 AIGC 提供养料，未来都会被AIGC替代掉 。

数字人这个事情，GPT让我们拥有更多的文本能力上限，把我们的能力边际打开。我觉得2024 年一定是超级个体元年，用上AI之后，人人都是创造者，而且是快速的创造。

提问：什么叫好的数字人交互？我们本身也是做数字人的，现在的交互就是把文本、语音、表情、动作四个单独的模态叠加在一块，但效果很普通。很多用户反而会喜欢迪士尼动画里的那种效果。

合成数据，动漫、游戏的数据都往里面放，而不是单纯真人。数字人不是一味追求真实性， 而是追求演绎效果 。一味地还原不是用户最终想要的，用户想要的是表达和演绎的增益，包括形象增益、知识增益还是表达增益。“理解”用户、“成为”用户、“超越”用户。