工具&提示词设计生产力大提升

AIGC前沿驾驭AI

机器人公司 Swiss-Mile 获估值 1 亿美元融资,贝佐斯领投;Midjourney 进军硬件领域丨AI情报局
Midjourney

机器人公司 Swiss-Mile 获估值 1 亿美元融资,贝佐斯领投;Midjourney 进军硬件领域丨AI情报局

今日融资快报 AI机器人 Swiss-Mile 筹集 2200 万美元种子资金,亚马逊创始人贝佐斯领投,估值超1亿美元 Swiss-Mile 是苏黎世联邦理工学院机器人系统实验室的衍生公司,正在开发自主机器人,旨在通过人工智能与物理世界的连接,将人类从繁琐的任务中解放出来。Swiss-Mile 的机器人与神经网络配合使用,它的原型可以在城市交通中导航、避开障碍物和攀爬台阶。 此轮融资由Jeff Bezos 通过 Bezos Expeditions 和红杉资本领投,亚马逊工业创新基金和 Armada Investment 以及现有投资者 Linear Capital 参与其中。 前小马智行孙又晗创立 Trans-N.ai,出海日本获最大种子轮融资 AI科技评论获悉,孙又晗,前小马智行高管,在自动驾驶领域的创业经历后,与那小川共同创立了 Trans-N.ai,并在日本市场取得了显著成果。Trans-N.ai 在东京大学 IPC 和 Delight Ventures 的支持下筹集了 1.55 亿日元(约736万元)的资金,成为日本最大的种子轮融资之一。 公司专注于 ToB 领域,提供会议纪要、协议分析等 AI 产品,并致力于打造一个中美工程师的接收平台,以吸引全球人才。孙又晗强调,创业应以生意为本,打造有用且赚钱的产品,而非单纯追求技术。Trans-N.ai 的目标是成为一个平台型公司,类似于华为,通过提供实用的 AI 产品和服务,实现商业化。(AI科技评论对孙又晗进行了独家访谈,更多详情,链接观看 https://mp.weixin.qq.com/s/OU1tPATh_7LVL9jDoqbfNA) 风险投资公司 Redalpine 完成 2...
Sora到底有多炸裂,四款视频大模型5大场景测评!从ChatGPT到Sora,OpenAI为何能连续打造出“王炸级神器”
Midjourney

Sora到底有多炸裂,四款视频大模型5大场景测评!从ChatGPT到Sora,OpenAI为何能连续打造出“王炸级神器”

每经记者:文巧 郑雨航 或许,能打败OpenAI的只有OpenAI。 2022年底,OpenAI推出人工智能聊天机器人ChatGPT,开启了大模型领域的“竞速跑”模式。2024年2月15日,随着视频生成模型Sora的横空出世,OpenAI再度掀起热潮。 Sora将视频生成内容拉到了一个全新的高度,逼真的视频效果刷新了社会对AI能力边界的认知。它的问世,就如同一枚深水炸弹,瞬间引爆全球科技圈。 不少业内人士直言,Sora的到来标志着一次质的飞跃。英国皇家工程院国际院士、欧洲科学院院士许彬(Pan Hui)在接受《每日经济新闻》记者采访时表示,“目前Sora在视频生成品质上面绝对是无可匹敌的。Sora生成的视频可以从小特写切大全景,变换不同的机位。” 值得注意的是,文生视频大模型并不是一条全新的赛道。为了更直观地呈现Sora的文生视频能力,《每日经济新闻》记者采用OpenAI官方公布的5条Sora视频提示词,对Pika、Runway和PixVerse的文生视频能力进行了测试,并将生成结果与Sora视频进行了对比,测试场景涉及人物特写、电影预告片等5类。 对比结果显示,Sora在生成长度、连贯性和视觉细节方面表现出明显的优势,几乎实现了“降维打击”。 从ChatGPT到Sora,为何OpenAI能连续打造出“王炸级神器”? 加州大学伯克利分校计算机科学 PHD、知乎作者SIY.Z分析称,“如果必须用一个词来展现OpenAI最核心的技术,我觉得是scaling law——即怎么样保证模型越大,数据越多,效果就越好。”从文本生成模型 GPT、文生图模型 DALL·E,到文生视频模型 Sora,OpenAI或许已经打造出了一条自己的AGI通用技术路线。 5大场景实测: Sora在时长等4个维度上实现“降维打击” 2月15日,OpenAI正式发布了首款文生视频大模型Sora。演示视频一经发布迅速引发业内热议,部分网友更是哀嚎,“要失业了”。 华大集团CEO尹烨在一篇文章中写道,“从这一刻,可拟合更多真实物理定律的数字孪生世界走进了人类社会。我愿意将其类比为,开启了AI发展的牛顿时代。” Sora的文生视频能力到底有何突出之处? 由于Sora并未开放测试账号,因此《每日经济新闻》记者采用OpenAI官方公布的5条Sora视频提示词,在街头、卡通动画、人物特写、动物特写以及电影预告片这5大场景下对同类模型Runway、Pika和Pixverse进行了效果测试。同时,将OpenAI官方公布的Sora视频与前述3个文生视频大模型进行了对比。 效果测试对比发现,Sora在生成视频的时长、连贯性和视觉细节方面表现出明显的优势,几乎达到“吊打”的程度。 英国皇家工程院国际院士、欧洲科学院院士许彬(Pan Hui)在接受《每日经济新闻》记者采访时也表示,“Sora的核心优势可以总结为,生成高清晰度的长视频。不论是清晰度,还是时长,目前都是第一。OpenAI更专注在照片写实主义的技术,虽然现在去讨论它会否引领新浪潮可能为之尚早,但是目前Sora在视频生成品质上面绝对是无可匹敌的。” 不过,需要说明的是,本次效果对比仅基于5个场景下的提示词,场景和提示词的数量均较为有限,并且不同模型生成的结果可能存在随机性。 一位技术从业者也向每经记者表示,尽管Sora与其他文生视频大模型的结果对比非常强烈,但不排除Sora的视频是OpenAI多次生成后选取最好的一条予以发布,因此展示效果更优。 (1)更长的视频时长 在与Runway、Pika和PixVerse的对比中,Sora生成的视频平均长度将近16秒,最长达到20秒,而相比之下,其他三个模型生成的视频长度均在3~4秒左右。Sora最长可以生成长达一分钟的视频,这使得Sora能够更完整地呈现视频内容,使其更适合制作短片、广告和其他应用。 (2)更强的视频连贯性 Sora生成的视频具有无缝过渡、自然的摄像机移动和流畅的角色动画,增强了整体观看体验。而相比之下,其他模型制作的视频经常会出现场景突变、画面不流畅等问题,影响观看体验。 许彬表示,“Sora可以改变视频的视角。Sora生成的视频,可以像一镜到底一样,从小特写切大全景,变换不同的机位,但是保证画面中的人物/物品。同时,(Sora生成的视频中)物体的一致性很强。一致性一向是在视频生成的领域里比较挑战性的一环,而Sora在此方向表现很好。” (3)更丰富的视觉细节 此外,每经记者发现,Sora生成的视频视觉细节丰富,物体纹理清晰,色彩逼真,整体视频质量更高。相比之下,其他模型生成的视频通常显得模糊、细节不足、色彩不那么鲜艳。 例如,在生成的“女人眨眼睛”的视频中,Sora对女性眼部的特写十分到位,从眉毛、睫毛、眼皮褶皱、眼袋、卧蚕和细纹的细节来看,已经达到以假乱真的效果。 (4)更能满足不同的场景 从上述5大不同场景的呈现效果不难看出,Sora明显更能够满足不同创作者的需求,无论是创作科幻场景、动画人物,还是模拟真实场景,都可以轻松实现。 华鑫证券研报称,Sora的核心技术是基于OpenAI在自然语言处理和图像生成方面的深厚积累,与Runway、Pika等相比,Sora在视频生成的真实感、细节表现上均具标志性价值。AI视频生成虽不是新事,但Sora的推出有望推高AI多模态的热度,可关注AI多模态应用塑造数字内容生产与交互新范式,赋能视觉行业,从文字、3D生成、动画、电影、图片、视频、剧集等方面,有望带来内容消费市场的繁荣发展。 从GPT到Sora,OpenAI打通AGI技术栈 从Sora身上,可以看到OpenAI沿袭了过往大语言模型训练的许多成功经验。 Sora视频的逼真和连贯程度着实令人惊叹,而帮助Sora实现能力飞跃的是该模型的两项核心突破。 首先在底层架构上,Sora采用的Diffusion Transformer(DiT,或扩散型 Transformer)架构。 OpenAI的文本模型,例如GPT-4,就是采用的Transformer模型,传统的文本到视频模型通常是扩散模型(Diffusion Model),Sora采用的DiT架构则融合了GPT和传统的扩散模型架构。...
一个默默无闻的文生图模型,直接给 DALL·E、Midjourney 和 FLUX 秒了?|AI横评
Midjourney

一个默默无闻的文生图模型,直接给 DALL·E、Midjourney 和 FLUX 秒了?|AI横评

作者|丸丸柚贝 邮箱|wangxianxian@pingwest.com 前两天Ideogram 更新了 2.0版本,并且现在可以免费体验。 体验链接:https://ideogram.ai/t/explore/design 网友:什么?干嘛的? 一年前发布的Ideogram 确实在AI生图领域没什么太大水花,甚至很多人都不知道它。 但Ideogram在更新2.0版本后直接点名挑战前几天爆火的FLUX和DALL·E3以及众多文生图模型。 Ideogram 官方声称,2.0版本要比FLUX和DALL·E3要强,并且在生成逼真图像、图形设计、排版等方面具有行业领先的功能。还在许多质量指标上都显着优于其他文生图模型,包括图像文本对齐、总体主观偏好和文本渲染准确性。 优于其他模型?口说无凭,我们先来测测实力,让Ideogram和最近爆火的FLUX以及、DALL·E3、Midjourney一起接受我们的考验。 我们按照以下统一标准进行测评,每个标准设置1分,每题5分共4题,总分20分。 (PS:prompt统一使用英文投喂,仅在文中翻译为中文。) 评价标准: 准确性:生成的图像是否准确地反映了文本描述的内容和细节。 清晰度:图像的分辨率和细节清晰度,是否能够清晰地看到图像中的元素。 逼真度:图像的逼真程度,包括颜色、纹理、光影效果等是否接近现实世界。 创造性:AI在生成图像时展现的创造性,是否能够根据文本描述创造出新颖和有趣的图像。 多样性:AI在生成图像时是否能够提供多种风格或视角的图像,以适应不同的需求。 1 写实风格 prompt:小丑在专业摄影环境中优雅行走的特写镜头。他沐浴在霓虹红、蓝色和紫色的灯光中。 Ideogram FLUX DALL·E3 Midjourney Ideogram、FLUX、DALL·E3和Midjourney四家对小丑的理解一致性还挺高的,基本都还原了杰昆·菲尼克斯饰演的亚瑟·弗莱克的形象,并且基本还原了提示词中的内容。 Ideogram和FLUX在整体的画质和人物的真实感和一些细节(比如衣服褶皱,光影明暗对比)方面表现比较好;DALL·E3生成的效果有点生硬,不够自然真实;Midjourney生成效果风氛围强,但光影对比效果不明显。 Ideogram:FLUX:DALL·E3:Midjourney 5:5:3:4 1 广告创意设计 Ideogram FLUX DALL·E3 Midjourney Ideogram对于提示词中的文字生成最准确,画面的真实感表现的最好,光影反射也符合物理规律,图片的质感和设计感表现突出;其次是FLUX,环境背景真实,但汽车的线条有点不自然,文字生成有一点错误;Midjourney生成的汽车背景和光影还算自然,但文字生成与提示词有明显出入,最后DALL·E3,背景真实感强,但是主体汽车生成不自然,文字生成有些模糊。 Ideogram:FLUX:DALL·E3:Midjourney 5:4:2:3 1 漫画海报设计 Ideogram FLUX DALL·E3...
中国游戏人恐怖生产力:短短一年,自制纯AI游戏让老外都自愧不如

中国游戏人恐怖生产力:短短一年,自制纯AI游戏让老外都自愧不如

买个游戏盘可以隔日送达,下几百个G的游戏只要几分钟,这个时代的速度提升总能利好游戏玩家,唯独厂商的大饼永远放在薛定谔的午餐盒里:你永远不知道它正制作,还是已经寄了。 经常关注游戏新闻的话,不难发现海外3A大作延期,已经不是某种品类的“特权”。明明全球化的推动下,从配音到动补的工作都能外包,商用引擎、素材也有海量库存。开发周期却还是漫长无比,很多大作都让人怀疑处于“新建文件夹”的程度。 而且时间不等人啊。个别创意十足的设定和玩法还在画大饼时,市面上就已经出现了多到不行的平替。让玩家很想问问厂商是不是“你醒啦,现在已经2024年啦”。 对此,不少海外游戏媒体也做出过分析,答案无外乎是:用人成本高、技术迭代快、项目周期长、拒绝流水线。归纳一下就是没钱——研发七八年的顶级3A,一份才卖60块,你玩什么命啊? 而这也让人好奇,如果钱到位,开发者的生产力能到什么地步呢? 人多钱多的中国手游厂商对此给出了一个恐怖的版本答案,只要1年,纯AI驱动游戏都做出来给你看!而达成这个奇迹的游戏,就是网易旗下的《逆水寒》手游。 众所周知,网易为这款游戏砸了不少钱,开发周期超过6年,运营规划10年以上,团队成员突破千人,预算10亿以上。而这么多产能染料打造的AI玩法,到一个什么地步呢?很多玩家都在社区里发表过类似的观点:在手游领域里,似乎真的找不到有《逆水寒》这么多AI玩法的作品。甚至一个玩家从进游戏到毕业,都可以完全跟AI一起玩耍,和人类零接触。 举一些案例吧。玩家想要了解游戏里的历史和地图细节,不用找玩家去挨个问或者查攻略站。直接找能对话的NPC问路就行。在AI指引下,哪怕是聊闲杂,讲述一些现代世界才有的奇闻轶事,AI都能接上两句。因为熟读游戏背景历史,记住了NPC的过往、性格甚至是其他玩家。AI几乎可以和真人一样互动,贡献出成吨的金句和超标的情绪价值。 甚至因为这个玩法太受玩家欢迎,官方还不惜重金研发了“自捏江湖友人”。让玩家自己选择NPC的姓名、造型、背景故事以及谈话习惯等细节。如果不会写这些,还能直接引入AI功能,让系统自己模拟生成一个人。 在哲学领域里,人的构成基于记忆和肉体信号而来——有人可能一辈子好脾气,但小时候过马路被流氓扇了一耳光,哪怕到了80岁一看到流氓就生气。可以说除了不会因为头疼脑热导致思考宕机之外,满足这些条件的AI,已经超越了传统的人机。 更离谱的是,因为生成玩法还可以高度自定义,从相貌到声音都能自选调节。不少玩家直接把自己在其他IP里嗑的CP搬过来、把顶流明星搬过来、甚至把自己亲朋好友都搬过来。这个功能上线三天内,就出现了500万“AI生命体”,不少“生命体”包揽了玩家的“老公”“老婆”的身份,还提供了大量堪比真人恋爱的甜蜜对话。 是的,AI系统连手游的核心玩法之一:社交都给取代了。再过两年,CPDD没准都要归类到“冲浪热词”里。 除了这些AI玩法之外,官方也提供了AI扫描视频生成动作、AI分析文字生成视频运镜,AI生成推荐装备,离线探索经历等丰富内容。说《逆水寒》手游是AI游戏不足为过。而这款游戏引入多种AI玩法,只用了1年!生产力恐怖程度可见一斑呐! 但即便在AI领域大放异彩,不代表《逆水寒》手游就弱化了自身内容。 作为一款开放世界MMO游戏,《逆水寒》手游的核心,是探索、养成、战斗、副本,而和传统的MMO不同,官方是真照着3A单机的要求准备这些“基础内容”。如果你想探索,那么照着宋代古籍、文献打造的开放世界内,藏着海量的小彩蛋、化学引擎交互、小解谜关卡和宝箱;如果你想养成,那么海量的职业选项都可供玩家挑选,从厨子到捕快甚至连职业鉴宝大师都存在。 就拿打怪这部分来说。《逆水寒》手游秉承“不卖数值”的思路。副本怪物都不是数值怪,玩家也不能氪金直接提升武器。因为AI本身对游戏机制的学习很充足,这种公平玩法又方便AI展露拳脚。如果玩家想要下副本战斗打架,直接找AI也能有很高的胜率,官方又把奖励设置得和正常下副本差不多,这让不少独狼都不再害怕单打独斗。 除此之外,官方在运营层面还强调时装低价策略,以及事无巨细地倾听玩家声音。这种组合技的目的,就是挽留绝大多数游戏玩家。特别是不爱花钱、不爱肝任务的泛用户。而玩家数量越多,官方越能做到“薄利多销”,达到正向循环的结果。 说白了,产能变化,本身还是依靠生产模式的变化。如果舍不得砸钱提升内容,哪怕能获取数量,但失去质量是得不偿失的。《逆水寒》手游证明了砸钱砸技术的重要性,后续就得看其他厂商是否愿意学习了,不知道大家如何看待这件事呢?