Sora:OpenAI的新宠儿,视频生成领域的突破
DALL-E

Sora:OpenAI的新宠儿,视频生成领域的突破

这篇文章主要介绍了OpenAI公司成功运行多个AGI技术栈的原因,重点讨论了其训练Sora模型的方法。Sora是OpenAI开发的具有先进视觉能力的模型,能够通过大量YouTube视频训练,并生成高质量的视频。此外,OpenAI还采用了高效的tokenizer和视频压缩网络等技术,提高了模型对prompt的理解和遵循能力,以及视频生成的多样性。
AI“神器”系列fifth弹:斯坦福洗碗机器人、字节版DALL·E等多款创意产品引领行业潮流
DALL-E

AI“神器”系列fifth弹:斯坦福洗碗机器人、字节版DALL·E等多款创意产品引领行业潮流

本文介绍了近期生成式人工智能(AIGC)领域的五款新应用,包括斯坦福洗碗机器人、字节版DALL·E、在线试衣神器OOTDiffusion和高质量动画生成模型AnimateLCM-SVD-xt。斯坦福洗碗机器人和字节版DALL·E都采用了创新的方法,使机器人能够快速学习新任务并实现AI替代人类任务的效果。而在线试衣神器OOTDiffusion和高质量动画生成模型AnimateLCM-SVD-xt则分别为网购爱好者和线上服装品牌提供了便利。
AI板块“刹车”:监管潮、大厂布局利好退出,股价何去何从?
AIGC游戏

AI板块“刹车”:监管潮、大厂布局利好退出,股价何去何从?

这篇文章讨论了近期人工智能(AI)板块在股市中的表现和监管问题。文章指出,AI板块的市盈率高达136倍,导致A股人工智能概念股回撤,并引发投资者对AI泡沫的担忧。随后,监管部门加强了对“蹭热点”“炒概念”及股价操纵行为的打击力度,使得AI监管逐渐受到关注。同时,文章分析了AI在游戏行业中的应用,认为其可以降低美术成本,提高研发效率。然而,股票市场往往遵循“利好出尽是利空”的规律,导致AI大模型密集发布对股价提振反而造成拖累。
2023年的ToB行业:出海、AIGC、融资上市之路
AIGC&图标LOGO

2023年的ToB行业:出海、AIGC、融资上市之路

本文总结2023年企业服务领域关键词为“出海、AIGC、融资上市”,并以一系列关于企业服务行业的对话作为背景,描绘出从业者面对市场变化时的焦虑和无助。然而,在这样的大环境下,仍有一些企业进行了新的布局和尝试,尤其是聚焦于海外市场、AI技术应用和企业服务。
AI:改变世界的创新力量
AIGC&图标LOGO

AI:改变世界的创新力量

本文概述了人工智能在各行各业的应用,包括医疗、能源、在线学习、建筑设计、音频内容、市场营销、招聘自动化、内容创作、新零售、图像编辑和图标设计等领域。通过AI技术,这些行业可以提高效率,降低成本,优化用户体验,同时也有助于推动科技创新和发展。
我们尝试用AIGC来进行工作,发现……
AIGC插画

我们尝试用AIGC来进行工作,发现……

撰文 | 何涧石 责编 | 齐卿 早在ChatGPT席卷全球之前,在2022年,以AI绘画、AI语音等等为代表的AI内容创作,又叫生成式AI(AIGC)就在互联网上掀起了一股热潮,其中尤以AI绘画最为热门,NovelAI、MidJourney、Stable Diffusion等AI绘画工具横空出世,震动了整个互联网内容创作圈,我们在今天也能在网上看到层出不穷的“以假乱真”的AI绘画作品。在沉迷于这样的“机械画皮”之外,笔者想到,是否可以完全用AI为我们生成一个虚拟主播,用于《中欧商业评论》的视频和直播中,甚至用全程用AI制作视频。于是在这段时间的折腾中,我们尝试了大量的AIGC工具,AIGC的革命性到底如何,也许能从此看出一二。 市面上的AIGC工具已数不胜数,几乎每天都有新的AI工具问世,在我们这次的折腾中,我们抱着“神农尝百草”的精神,在各种尝试之后,主要使用了以下AIGC工具(表 1): ◎表 1 掌握了以上工具,你也能全程用AI创造出以虚拟人为主角的视频 AI画图一时爽,投入使用两行泪 最初对于虚拟主播的设想来自于2022年底NovelAI的流行,在这个网站上,通过输入各种描述(仅限英文),可以由AI画出我们设想中的二次元萌妹子形象,于是我们突发奇想,为什么不用AI做几个虚拟主播玩玩呢?于是,这场AI引起的折腾开始了。 我们的设想是用AI画一对姐妹样式的二次元虚拟人,一位现代风的和一位国风的,分别用于不同风格的视频和直播内容。经过多次尝试和调整之后,我选出了两幅比较满意的画作(图 1): ◎图 1 NovelAI产出的两幅我们还比较满意的虚拟人形象 NovelAI使用云端算力,对电脑配置没有要求,但画图需要付费消耗点数,生成分辨率高的一张图大约要花0.1美元,要不断尝试直到生成满意的画作,还是要花不少钱的。尽管基于NovelAI背后的开源模型,可以将其部署到本地免费使用,但这样的话则由于消耗显卡算力,对电脑显卡性能要求较高,出图速度慢,当然还有一个更重要的问题——NovelAI的画风单一,图源明显来自于网络画师,可能有版权问题。 由于NovelAI的种种缺点,我们并不能真正享受到AI绘画的乐趣,于是我们把目光投向了其背后的开源AI图像生成模型Stable Diffusion WebUI(简称SD)——部署在本地,免费,需要电脑有较好的显卡和较大的固态硬盘,一次生成的图片越多,或者图片的分辨率越高,对电脑显卡性能的要求也就越高。使用者需要花很多时间学习词条指令、调试参数、加载各种模型、操作各种图片生成模式等等,同时因为是开源模型,新功能、新玩法层出不穷,需要用户时刻跟进学习,学习成本较高。操作繁琐复杂的同时(图 2),是极为丰富的可玩性和DIY乐趣,以及庞大的模型素材库引起的更加严重的版权纠纷。前不久,美国的盖蒂图片社(Getty Images)起诉了SD的母公司Stability AI,指控它为了创建一个图像生成模型而侵犯了盖蒂图库中数百万张照片的版权。 ◎图 2 要精通这让人头皮发麻的操作界面和霍格沃茨都直呼内行的生图指令,需要投入大量的时间和精力学习钻研,中间学习操作的过程也是小问题不断 这一次,我们想画出有一定写实风格、身着职业装的虚拟女性人像作为我们的视频旁白播音员,经过大力钻研,目前靠笔者的一台2019年RTX2070显卡的老笔记本电脑,不算调试参数和指令的时间,基本上5分钟之内能生成一张质量还不错的图,基于如今琳琅满目的各种模型,理论上可以自由生成无限种不同风格、不同款式、不同形象的虚拟人像画作(图 3)。 ◎图 3 通过不断调试,我们已经能通过Stable Diffusion生成我们想要的虚拟播音员图片,接下来就是让她动起来说话了 结果没想到,这一切才仅仅是个开始。要把AI生成的人像图片变成虚拟主播,按照传统由立绘到虚拟主播的方法,需要用PhotoShop(PS)先拆分图层,再到一个叫live2D的软件进行建模,配合面部捕捉软件和OBS(直播推流和录制视频必须要用到的软件)录制视频和直播,这下笔者实在是学不动了,决定探索有没有AI画作直接变身虚拟人的邪术。 结果是万能的B站上还真有个邪术,一个由民间大神开发的AI程序,叫作EasyVtuber。利用AI抠图软件扣除AI人像图片中的背景,再进行AI高清化处理后,加载EasyVTuber,就可以跳过一般虚拟主播要使用的立绘拆图、live2D建模和面部捕捉,直接连接到OBS使用。但由于必须用到OBS上的一个特定插件,仅支持旧版的OBS,实际效果差强人意,仅仅头能动,像是个简陋的摇头娃娃,或者说仅仅是一幅会动的图片。但无论如何,我们至少是用现阶段的AI技术一步到位,可以快乐地用虚拟人直播和录视频了。进一步看,如果我们只是想要虚拟播音员出镜的话,用AI画作理论上我们有无数种不同形象的虚拟播音员,再结合前文表格中提到的D-ID这样让人像动起来的AI配音工具,配上《中欧商业评论》的背景或者视频画面,就可以任意产出虚拟播音员的配音短视频了(图 4)。 ◎图 4 AI生成的虚拟人结合背景模板,投入直播或视频中的效果演示,看起来还凑合 但如果是要打造真正的虚拟主播IP,AI仅仅在立绘生成,即从0到1这一步能派上真正用场。全流程使用AI的话,从效果上来看,还无法与传统人工的制作水平相提并论,如果对虚拟主播有特别定制化的需求,还是建议去网络社区花钱请专业人士绘制一个真正的虚拟形象(没钱的话就慢慢自学吧)。 在这之后,我们想到尽可能多地用AI技术录制视频,这又是好大一番折腾,也就是文章开头的表格是怎么来的——我们可以通过ChatGPT制作视频文本,通过文本由AI绘画生成图片素材,上传文本到AI视频制作软件再根据文字爬取素材生成视频。AI生成的虚拟主播类似于播报员,可以用AI生成的语音念旁白,也可以人工配音,配合D-ID做到面部可动穿插在画面中,理论上我们想做什么样的虚拟主播、什么样的视频都可以用AI随意生成。听上去不错,但从实际效果看,还有很大的提升空间,比如经常还会出现旁白内容与视频内容不匹配的情况。 AIGC的局限 AIGC并不是零门槛,相反对于一般人来说,想要精通AIGC,门槛不低。以AI绘画为例,无论是用何种方式生成图片,首先都需要大量的文字描述编写,这一关就已经需要大量的时间进行尝试和训练,其次则是要学会AI绘画工具的各项功能和设置,调试各类参数。在这之后,尽管几分钟AI就能拿交出一幅画作,但出图质量不稳定,比如众所周知的“AI不会画手”,这也是为什么AI绘画被称为“赛博炼丹”——图片质量靠运气和输入描述指令的水平,需要大量时间进行试错,才能让AI产出满意的成品。...
大厂设计师教你如何使用AIGC绘制插画绘本
AIGC插画

大厂设计师教你如何使用AIGC绘制插画绘本

01. 教程价值 可实现什么效果?解决什么痛点? 通过AI工具使用,让不会设计、手绘的同学也能把想法转换成属于自己的绘本,举一反三实现绘本自由! 教程知识点 · 如何用ChatGPT完善故事脚本 · 如何使用Midjourney控制人物角色 · 如何统一绘本设计风格 · 如何进行画面排版展示 02. 操作过程 准备工作设计工具:ChatGPT、Midjourney、Adobe Illustrator/Adobe Photoshop第1步 通过ChatGPT创作故事脚本 用ChatGPT写故事脚本主要分为四点: 第一点植入一个角色身份:需要给到ChatGPT一个身份,比如我需要创作故事脚本,我会先跟他说:你现在是一个顶尖的绘本故事导演,现在需要他帮助我做一件什么样的事情。 第二点设定一个情景:需要给到他时间、人物、地点、发生什么事情、世界背景等。 第三点铺垫知识/信息:与ChatGPT进行交互,通过提问、回答和进一步的对话,逐步发展和细化故事情节。你可以向ChatGPT提供关于角色的动机、行动、对话和场景的指导,以及其他细节,以帮助ChatGPT生成合乎你期望的故事发展。 第四点问题拆解、迭代:根据ChatGPT生成的内容,整理和修改故事脚本。删除不必要的部分,添加细节和对话,确保故事的连贯性和逻辑性;最后脚本的表格化整理:将故事脚本整理成表格形式,包括序号、原文、画面感的改写、Prompt和英文Prompt,以便于组织和参考。 第2步 绘本固定角色的几种方式 目前AI绘本难点在于如何控制人物角色,当然有很多方法能解决,下面介绍一下能满足日常创作,操作难度相对较低的用Midjourney提示词 seed值 垫图固定。 准备工作:打开Midjourney,输入指令/settings检查工具使用情况: Remix mode:精准控制画面构图、High Variation Mode(高变化模式)、low Variation Mode(低变化模式) 方法一: 在Midjouney中,替换提示词中XXXX主体描述:High quality,XXXXXX, cat head soldier, various poses and expressions,...