文生视

国产“Sora”亮相中关村,文生视频相关个股有哪些
Sora

国产“Sora”亮相中关村,文生视频相关个股有哪些

就在昨日,我国人工智能大模型领域又迎来重大突破,AGI的真正连锁反应或将从视频开始。 4月27日上午,“2024中关村论坛-未来人工智能先锋论坛”在北京正式举办,本次平行论坛由科学技术部、北京市人民政府主办,旨在进一步探讨“语言大模型”、“多模态大模型”、“具身智能”等新一代人工智能关键技术与应用的创新。 国产AI视频斩获新进展,中国版“Sora”闪亮登场 就在此次论坛会议上,国内首个纯自研Sora级视频大模型Vidu正式发布。该模型由北京生数科技联合清华大学共同研发,是我国首个长时长、高一致性、高动态性视频大模型。Vidu的发布,表明我国在视频大模型领域已初步具备对标Sora的能力,标志着我国全面进入视频大模型自研时代。 据介绍,Vidu采用研发团队原创的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容,不仅能模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。 值得注意的是,与Sora相比,Vidu可以生成特有的中国元素,例如熊猫、龙等。 不少业内人士认为,尽管目前Vidu生成视频的能力只有16秒,距离Sora宣称的还有一定差距,但这显然是训练量不足导致的,Vidu现在的成果表明技术方向是正确的。仅从视频效果和发布时间来看,Vidu已超出了大部人的预期,未来随着在算力、时长等方向上的延伸和突破,Vidu有望为我们带来更多惊喜。 文生视频时代悄然降临,部分行业或将加速变革 此前的2月16日,OpenAI的文字生成视频模型–Sora首次面世。该模型可以根据所输入的prompt(提示词),直接输出最高长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。 当时Sora发布的生成视频,无论从人物动作还是场景表现上看,都无比贴近现实。如果不告诉观看者视频是由AI生成的,谁又能辨别出来呢? 这个能够快速且优质地将文字描述转化为引人入胜视频的AI工具,不仅仅代表着技术上的一次巨大飞跃,也预示着我们熟悉的许多行业即将面临一场革命。 有关统计数据显示,目前,全球有超过60亿人口是视频工具和短视频的用户,而其中与视频产业相关的从业者可能已经超过了将近10亿人,占到了全球总人口的13%到14%,这些从业者涵盖了影视行业、短视频行业等诸多我们日常触手可及的各种视频展示领域。 对于影视行业来说,AI视频模型的出现,将极大地降低拍摄剧集的门槛。 做了20年影视导演的某位业内人士,看到AI视频后说的第一句话是“要变天了”,第二句话是“我直到今天才庆幸自己是个导演”。 令从业者发此感叹,主要是因为现在的影视行业,分工极其精细,很多工种和里面的从业者都是阶段式配合,可以说一个环节掉链子,整个戏就可能功亏一篑。而如果AI视频按照现在的速度发展下去,未来至少很多简单的镜头、群演、灯光布景等,都可以用AI去完成了。 而对于短视频行业来说,AI视频生成模型的陆续发布,无疑将令行业竞争进一步加剧。 在全球范围内,无论是中国的抖音、快手、B站和小红书等平台,还是国际版的TikTok,短视频内容消费正处于前所未有的高峰。而随着AI模型的出现,用户现在能够迅速制作出各种类型的视频内容,未来稀缺的不再将是视频拍摄或者剪辑的能力,只要拥有独特的创意,便可轻松入局,行业本就激烈的竞争可能进一步加剧。 文生视频热潮之下,国内哪些上市公司已布局? 文生视频作为AI领域的新兴热点概念,此前曾受到市场资金的“追捧”。2月19日,在Sora的催化之下,诸多概念股迅速升温,部分公司当日股价呈现“20cm涨停”。 而本次Vidu视频生成模型的隆重推出,是否会进一步带动相关概念股股价上涨呢?让我们拭目以待,周一开盘见分晓。 据览富财经网不完全统计,目前A股市场中涉及文生视频相关概念的,共有12家公司,其中不少公司都在积极推进相关业务。
视频革命来了?Vidu打破Sora神话,16秒长视频大模型震惊业界
Sora

视频革命来了?Vidu打破Sora神话,16秒长视频大模型震惊业界

本文讲述了清华大学与生数科技发布的中国首个长时长视频大模型Vidu,在性能上超越了OpenAI的Sora模型,实现了全栈自主创新的技术突破。Vidu在模拟真实物理世界、理解多镜头语言和生成长达16秒视频等方面表现出色,打破了行业对Sora垄断的讨论。尽管面临来自Pika和RunwayGen-2等竞品的竞争,Vidu展示了其在语义理解和大规模训练上的优势,证明了技术路线的正确性。研发团队生数科技由清华大学背景成员组成,并获得了多轮投资,显示出了在这个领域的领先地位。
探索生成式未来:21世纪AI历程如何引领AI新篇章?
Sora

探索生成式未来:21世纪AI历程如何引领AI新篇章?

生成式AI行业经历了机器学习-深度学习-生成式人工智能的发展历程,21世纪初开始,依托于机器学习和深度学习的积累,GPT-4的出现标志着基于语言的人工智能步入新阶段。超大规模智能模型,尤其是多模态大模型,如GPT-3等,已在自动驾驶、AI内容生成等多个领域应用广泛,并受到商业人士的高度关注,未来潜力巨大。
中国发布首个Sora级视频模型Vidu,AI视频技术迈向新高度,AGI之路加速?
Sora

中国发布首个Sora级视频模型Vidu,AI视频技术迈向新高度,AGI之路加速?

美国OpenAI公司发布的Sora视频生成模型引发了全球关注,其能生成电影级别的多镜头长视频,随后中国清华大学与生数科技推出了Vidu,声称国内首个Sora级视频模型。商汤科技也展示了其在文生视频平台的突破,这标志着中国正在追赶并创新AI技术,目标是实现Sora级视频和AGI技术。然而,目前真正的多模态大模型还未能出现,Sora虽然进步明显,但离完全多模态仍有距离。多模态大模型的核心在于理解和生成多模态信息的互信息,Gemini模型可能是这一方向的发展。
MidjourneyAPI使用教程:如何接入及实战演示
Midjourney

MidjourneyAPI使用教程:如何接入及实战演示

这篇文章介绍了如何使用Midjourney API,首先要通过触站AI来调用Midjourney的API接口。在触站AI界面中,找到“API调用”按钮,进入API调用页面,选择Midjourney的API接口并填写申请信息,提交申请后等待审核,审核通过后获取API密钥,然后按照开发文档将API密钥嵌入到站点代码中,最后根据需求开发前端和后端系统,充分发挥Midjourney的功能。
Stable Diffusion|轻松去除和增加图片中的物体
StableDiffusion

Stable Diffusion|轻松去除和增加图片中的物体

今天分享一个用Stable Diffusion将图片中不需要的物体去掉,然后将需要的内容添加到图片上的小教程。现在不管是在朋友圈还是在自媒体平台上,我们经常能够看到这样一句话“谁能帮我把什么什么P掉”,目前现在大家常用的方法就是用PS或其他的图片处理工具将图片中不需要的物体去掉,但这方法需要耗费大量时间,且效果可能不尽如人意。 用Stable Diffusion来处理这样的事会简单很多,它可以在图片中精确地去除不需要的物体也可以很自然的添加我们想要添加的物体,同时保持图像的真实和自然。 1 前期准备 1. 本文需要用到ControlNet插件,如未安装的需要去安装一下,然后下载相关的模型。(安装方法就不一一介绍啦,如果有任何疑问或问题可以在公众号后台私聊我) 2. Inpaint Anything,用于给图片添加需要的物体,如未安装的需要去安装一下。 安装方法就不介绍啦,如果需要看安装方法,可以看前面发布的一篇文章: Stable Diffusion|Ai赋能电商 Inpaint Anything 3. 准备一张需要处理的图片。 2 去除物体 1. 打开Stable Diffusion,“启用”ControlNet并且勾选“完美像素模式”,然后上传图片。 2. 在控制类型中选择“局部重绘”,预处理器选择“inpaint_global_harmoniou”,然后模型选择“control_v11p_sd15_inpaint”。 3. 可以适当地增加控制权重的值,也可以根据输出的结果来决定是否需要进行调整。在控制模式方面,可以选择“更偏向提示词”选项,这样能够更好地控制输出的结果。 4. 在上方图片中,涂抹需要去除的物体。 5. 设置好ControlNet之后,选择一个跟图片相关的大模型,写实图片就选择写实大模型,卡通图片就选卡通模型。提示词这里可以描述一下图片的内容(不要写需要去除物体的提示词)。 如果不知道怎么写提示词,可以点击图生图,然后上传一下那张图片,点击“CLIP反推”反推一下提示词,然后将需要去除物体的提示词去掉即可。 6. 设置生成参数,尺寸建议跟上传的图片保持统一比例,其他的可以根据自己的需求调整。 7. 以上参数设置完成之后,点击“生成”即可。 我们可以看到图片中的人物很好的去除掉了,且整体画面看起来非常自然。 3 写实照片 接下来我们试一下写实照片。 1. ControlNet设置保持一样即可,只需要将图片替换一下,然后将需要去掉的内容涂抹一下即可。 2. 模型换成写实模型即可,然后提示词跟刚刚一样,不会写的可以在图生图反推一下,然后将需要去除的提示词去掉即可。 3. 设置生成参数,尺寸建议跟上传的图片保持统一比例,其他的可以根据自己的需求调整。...
《AI绘画大师清风徐来的秘密武器:DALL-E3全面解析》
DALL-E

《AI绘画大师清风徐来的秘密武器:DALL-E3全面解析》

这篇文章介绍了DALL-E 3,这是一个人工智能绘画工具,能通过输入文字提示来生成图像。DALL-E 3已经向所有ChatGPT Plus和Enterprise用户开放,可以通过对话来创建独特的图像。文章还比较了主要的AI绘画软件,包括Midjourney、Adobe Firefly 2和Stable Diffusion,并给出了本地部署秋叶安装包及教程。此外,文章还分享了使用DALL-E 3的一些技巧和注意事项。