工具&提示词设计生产力大提升

AIGC前沿驾驭AI

Sora被戏称“期货”,国产Sora上演“向左走,向右走”

Sora被戏称“期货”,国产Sora上演“向左走,向右走”

出品 | 创业最前线作者 | 庆庆编辑 | 闪电美编 | 李雨霏审核 | 颂文 ChatGPT引爆新一波人工智能浪潮,Sora再掀大模型文生视频巨浪,如今AI文生视频领域,进入逐鹿商用战场阶段,一时间,八仙过海、各显神通。 值得关注的是,逐鹿商用落地,两种主流模式正引发热议。快手可灵侧重面向C端,新壹科技侧重面向B端,它们都犹如猛虎出山,所到之处势如破竹。 这引发人们的好奇,想要了解它们背后各自的商业逻辑以及独特优势。当了解清楚后,人们不得不称之为“殊途同归”。 1、逐鹿商用战场,无法落地者没有未来 Sora在AI文生视频领域挖出的坑,到了不得不填的时候了。“烧钱”是该领域玩家不得不正视的难题。 Sora的横空出世,让之前以文生视频知名的公司Runway、刚崭露头角的创业公司Pika两家公司推出的产品黯然失色。就连常年吐槽OpenAI的马斯克,也不得不公开低头称:“人类愿赌服输”。 然而时至今日,Sora仍未向公众开放。即使发布的视频效果吊打几乎所有玩家,但没有商业化落地的情况下,也开始有人戏称其为“期货”,认为Sora给大家挖了个大坑。 OpenAI并非有意挖坑,无限风光背后,是其烧钱速度远超预期,商业化路径探索未明的风险加剧。 在Sora未对公众开放的阶段,OpenAI烧起钱来就极为猛烈。近期OpenAI被曝今年面临高达50亿美元的亏损,而且未来12个月内有可能耗尽现金储备。这意味着,OpenAI亟需新一轮的融资以输血,不然将面临生死存亡。 图 / 摄图网,基于VRF协议 要知道,这主要是OpenAI在文生文大模型领域的烧钱结果,也主要是在该领域激战免费模式以及扩大训练规模的影响下的结果。而相对于文生文大模型,文生视频对算力要求更高,意味着烧钱程度更高。 强如OpenAI,都未在文生视频领域,找到有效商业化路径。收入规模无法覆盖所需巨额成本的难题,摆在所有玩家的面前。 AI文生视频,无法商业化落地者,没有未来。这是一个残酷的现实,也越来越成为玩家们的共识。 过往商业案例无不如是。以同样被时代选中的智能家居为例,早在1990年,微软创始人比尔·盖茨就启动“未来屋”的建设,花了7年时间,终于完工。这是他对未来的智能家居生活的想象,当时外界对其理念并不感冒。 图 / 摄图网,基于VRF协议 1995年,他还出版了一本名称为《未来之路》(The Road Ahead)的畅销书,书中对智能家居进行了系统构想。穿越漫长的30年周期,历经智能家居1.0、2.0、3.0,直至今天,智能家居的构想才终于照进现实。这期间,死在路上的不计其数,活下来的,都是商业化落地的强者。 去年底,艾拉物联被法院裁定为破产清算。这个曾被称之为全球物联网IoT云平台“开山鼻祖”,就这样死在了路上。而商业化落地极强的华为、小米、海尔等巨头,则都穿越周期而愈加枝繁叶茂。 Sora横空出世之时,人们纷纷高呼其开启了“视频的ChatGPT时代”,如今看来,没有商业化落地,这个时代就不算真正到来。 2、国内AI文生视频行业上演“向左走,向右走” 热闹喧嚣的AI文生视频赛道,除了Sora,其他厂商几乎都在激战商业化落地。尤其是在今年6月以后,国内玩家们“务实”起来,将商业化落定列入日程表。 虽然如今胜负难分,但因有些玩家已经前瞻性布局以及行动,逐渐开始崭露头角,并成功引领行业风向。 目前国内AI文生视频赛道上,已经形成两大主流商业模式。一是以快手可灵为代表,面向C端消费者的模式;另一个则是以新壹科技为代表,面向B端客户的模式。 先来看可灵。其是快手于今年6月推出的一款国产对标Sora的文生视频大模型。快手可灵发布后即向公众开放,在快手旗下快影App开放邀测体验。 快手可灵采取面向C端消费者的商业模式,不同于文生文领域的免费大战,用户使用可灵需要付费,其还推出了会员服务。有月卡、季卡、半年卡、年卡等多种套餐供用户选择。 另外办理套餐后,又分三档会员价格,以月卡为例,三档价格分别为10美元、37美元和92美元,对应分别获得660、3000、8000“灵感值”,可生成66个、300个或800个5s高性能视频。 而这一模式引来无数“尝鲜者”。公开数据显示,7月30日,快手可灵已累计超百万人在线申请。在宣布这一成绩的当天,快手宣布将可灵AI内测服务扩展到面向全球用户开放。可见,其在C端杀出重围,效果明显。 另一边,新壹科技的文生视频大模型,面向B端客户的模式也进行得如火如荼。 相对于诸多玩家纷纷分羹C端消费者的局面,面向B端的玩家并不多。因为B端用户对大模型的需求有门槛,即使是明星产品Sora,目前暂时都没有考虑在B端落地。 那么,新壹科技缘何选择这一模式?...
AIGC教程:如何使用Stable Diffusion生成B 端图标(附安装包)

AIGC教程:如何使用Stable Diffusion生成B 端图标(附安装包)

在日常工作中,设计师在应对运营和UI设计的B端图标时,常常面临大量的构思、制作和渲染等工作,耗时耗力。我们可以利用Stable Diffusion(以下简称SD)结合AI的方式,帮助设计师优化图标的设计流程,使任何对这一领域感兴趣的人都能尝试并创作出多样化的图标设计,灵活高效运用在项目之中。 B端图标,一种有着立体风格的毛玻璃效果的图标、有流畅的曲线和细致的表面细节,通常应用在运营详情页、UI头图、banner等占位使用,让画面更出彩。 需要对电脑配置有一定的了解,部署要花费一定的时间。已经部署过的可以按照下图进行配置更新。 SD模型、外挂VAE模型、Refiner模型、ControlNet模型(均来自大模型作者)。 链接:https://pan.baidu.com/s/1fQh9-fnGXJS8sh8CwO1Wtg?pwd=7605 提取码:7605 下图为模型文件在SD中的设置: 其它参数使用系统默认的即可,采样方法选了DPM++ 3M SDE Karras,画面会柔和一些,背景更干净,细节也相对的减少,速度和DPM++ 2M Karras一样,所以迭代步数推荐在30或以上(太高容易卡顿,画面细节太多也影响最终的结果,所以推荐30即可)。 · 线稿处理 用ControlNet控图,需要明确图标的线稿。要知道自己想要一个什么样的图标,推荐使用已有图标进行优化,使用PS进行图标线稿处理,再对其外形等关键特征进行组合或者添加自己的创意。对于特别复杂的图形,建议避免使用过于复杂的模型。只需有基础的轮廓图,就可以快速创建B端图标。如果是专业工作使用,请考虑制作更加规范的底图,并注意版权使用问题。这里需要注意的是,尽可能的把闭合形状的轮廓处理的粗细一致且清晰可见;模糊的区域可以用橡皮擦或者蒙版处理干净;立体图形的转折处连接处要明确。 · 构思关键词推荐使用下方的关键词,并替换自己想要的内容和颜色等,如果无法找到合适的关键词或创意,请先在网上收集一些相关的设计参考图片。在图生图界面中,将这些参考图片导入并点击CLIP反推提示词。选择生成的关键词,然后将其输入到文生图的Prompt中。这样可以快速得到理想的设计方案。 正向关键词: (a shield icon:1.1),dark blue frosted glass texture,dark blue gradient,(softedges:1.2),3D,best quality,many details,4k,blender,octane render,C4D,transparentglass texture,DDicon,frosted glass,transparent technology sense,industrialdesign,white background,studio lighting,sunshine,flat,minimal,quasi-object,Datafile 负正向关键词:lowres,bad anatomy,((bad hands)),(worst quality:2),(low quality:2),(normal quality:2),paintings,sketches,lowres,bad anatomy,bad hands,text,error,missing fingers...
Sora?Vidu!

Sora?Vidu!

导 读 2024中关村论坛年会今天(4月27日)首次举办“人工智能主题日”,聚焦人工智能最前沿举行12场活动,多项重大成果集中亮相。其中,我国首个自研视频大模型Vidu发布,全面对标国际顶尖水平。 Vidu生成的视频画面/来自生数科技 一键生成16秒、1080P高清视频 中国首个自主创新视频大模型Vidu发布 只需要一段文字指令就能生成一段60秒精致细腻的视频,今年2月,文生视频大模型Sora曾在全球引发震动。对标Sora,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。支持一键生成长达16秒、分辨率高达1080P的高清视频内容。清华大学人工智能研究院副院长、生数科技首席科学家朱军介绍,Vidu是联合攻关团队全栈自主创新的最新成果,它在多个维度上实现了技术的突破。它可以模拟真实的物理世界,可以具有想象力,可以理解多镜头的语言,不再是简单的镜头的推拉,它也可以一镜到底生成16秒的视频,不需要任何地剪接。同时它在人物、场景和时间保持上具有高度一致性,它还可以理解和生成中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。 Vidu生成的视频画面/来自生数科技 根据现场演示的效果,Vidu能够生成细节复杂、并且符合真实物理规律的场景,例如合理的光影效果、细腻的人物表情等。它还能生成真实世界不存在的虚构画面,例如“画室里的一艘船正在海浪中驶向镜头”这样的场景。在长期和正确的技术路线积累下,Vidu团队在短短两个月实现了技术的重大突破。“今年1月份时,我们当时做出了4秒的视频生成。在Sora推出之后,我们加快了技术攻关的进度,在3月底我们突破了8秒,虽然4秒到8秒只有一个2倍的提升,但是一个巨大的进步,它验证了我们的技术路线是正确的,坚定了我们信心。”朱军表示,在4月份时,团队进一步地加大了技术攻关力度,现在视频生成长度达到了16秒,“在未来还会进一步地突破这个长度,我们相信会是一个更快的速度在迭代。” Vidu生成的视频画面/来自生数科技 5年内 家庭机器人有望发布 深度融合了人工智能和机器人等多学科技术的具身智能,正在成为人工智能的下一个浪潮。论坛上,多家科技公司带来了最新款的人形机器人。银河通用机器人公司目前研发的机器人技术,已经可以做到在任意场景对任意物体进行抓取。未来5年,通用具身智能驱动的人形机器人有望深度地进入家庭。“我们计划通过5年时间,发布家庭使用的人形机器人,能够帮你在家里取东西,包括从桌子上取,从冰箱里去取,还有在各种地方放东西,还可以使用各种家用电器,帮你用微波炉来加热食物,再到帮你做一些立体清洁,比如擦桌子、擦镜子等现在扫地机器人干不了的事情。”银河通用创始人王鹤说。 多家科技公司展示人形机器人研发成果/大会提供 银河通用研发的人形机器人/记者拍摄 海淀发布 全球首个人工智能街区概念 海淀区作为全国人工智能的发展高地,已集聚人工智能企业近千家,占全市的三分之二、全国的六分之一。在论坛上,集中发布了人工智能发展的阶段性成果。中关村科学城管委会副主任、海淀区副区长唐超介绍,率先发布了全球首个人工智能街区概念,在海淀53平方公里城市空间,按照三横两纵一带的格局规划人工智能街区,全力建设集成通用人工智能技术的城市智能体,率先在五道口和大钟寺两个先导区打造智能体样板间。海淀区还发布了打造全国具身智能创新高地的三年行动方案,聚焦具身大模型和机器人整机,部署实施六大行动,力争到2026年初步建成全国具身智能原始策源地、应用示范新高地和产业加速集聚地,成为中国参与全球具身智能竞争的核心力量。 中关村论坛“人工智能主题日”主论坛/大会提供 (转载请注明本文来源及记者、编辑等信息) 内容来源:北京交通广播记者 王琛琛 编辑:刘慧明 值班主编:车水 监制:赵鹏 点个 分享给身边的朋友吧
实测七款“国产Sora”,恕我直言……

实测七款“国产Sora”,恕我直言……

文 | 硅基研究室,作者 | kiki 8月的一个普通夜晚,即便是在凌晨,快手可灵的官方创作者交流群里,讨论声依旧不减。 “美女、萌宠和科幻”。一位创作者这样分享自己的AI视频流量密码。“求大神的提示词,来一个”“怎么赚钱?求带?”类似的声音不在少数。 这一发生在可灵社群里的讨论,恰好反映了时下AI最热门赛道的现状——AI视频的火热。 自今年6月起,国内AI视频的迭代速度似乎进入了一个「大爆炸期」。6月,快手可灵、Runway、Luma AI等产品全面对外开放;7月,商汤推出最新AI视频模型 Vimi,爱诗科技发布PixVerse V2,生数科技Vidu大模型开放使用,智谱AI在官宣AI生成视频模型清影(Ying)正式上线的同时,还顺便开源了自家的视频生成模型CogVideoX-2B…… 在国内竞逐AI视频的玩家中,也鲜明地分为两派:第一类是大厂派,典型是快手与字节跳动;第二类是AI大模型创企,如智谱AI、爱诗科技、生数科技、MewXAI(艺映AI)、右脑科技(Vega AI)等,据「硅基研究室」不完全统计,目前国内涉足AI视频领域的选手有近20家,行业整体呈现加速迭代的趋势。 据东吴证券的测算,中国AI视频生成的行业潜在空间为947~5858亿元,在中性假设下(AI渗透率=15%)为3178亿元,其中C端、B端市场空间分别为 2673亿元、505亿元。 不过,行业热闹与前景的B面,AI视频还没到「开香槟」的时刻。我们实测国内7款的AI视频产品后发现——能用的很多,但好用的很少,在玩家们激进的商业化策略中,还远没从「玩具」进化到「生产力工具」。 「国产Sora」实测:能用的很多,但好用的很少 层出不穷的大片demo,来自各界的赞美,让国产AI视频成为了时下最热闹的赛道,在Sora尚未开放时,国内的AI玩家似乎都在抢抓这一窗口期,把「对标Sora」写在了日程表上。 最激进、最为耀眼的当然要数快手的可灵,猎豹移动董事长傅盛甚至在体验过后表示:“我觉得(可灵)也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的。” 事实果真如此吗?热闹和喧嚣之外,国产AI视频产品真的已经如此能打了吗?为了探究这些问题的答案,「硅基研究室」选取了国内较为热门的7款AI视频产品进行实际体验,我们的发现是:能用的很多,但好用的依旧很少。 我们选取的7款产品分别为:快手的「可灵」、字节跳动的「即梦」、智谱AI的「清影」、爱诗科技的PixVerse V2、生数科技的Vidu、右脑科技的Vega AI以及MewXAI的艺映AI。 在实测标准上,我们将比较不同产品的三大能力,包括基础能力、理解能力和生成能力,为了尽量保持客观,大多数AI视频镜头都需要多次抽卡,因此我们将使用统一的提示词,展示一次性生成的结果,同时因为篇幅所致,文章仅展示部分视频生成结果。 • 基础能力:产品主要的基础功能比较 • 理解能力:主要考察产品对简单和复杂提示词的理解。 • 生成能力:包括视频生成速度和视频画面的稳定性、一致性、准确性与创造性。 以下为具体的实测结果图—— 场景一:简单提示词+静物定格画面 在该场景下,我们选取了Sora发布时的一段提示词:A stop motion animation of a flower growing out of the windowsill of...