ChatGPT五分钟写完插件,功能完善,还可加需求改BUG量子位2023-02-09 08:50北京量子位2023-02-09 08:50北京
AIGC与原型设计

ChatGPT五分钟写完插件,功能完善,还可加需求改BUG量子位2023-02-09 08:50北京量子位2023-02-09 08:50北京

詹士 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT写代码,水平究竟如何? 不到5分钟,做出一个WordPress(一款内容管理系统软件)插件,且代码很干净。 测试者名叫David Gewirtz,是一位1982年进入IT行业的老炮,供职过的公司包括:赛门铁克、苹果、Pyramid Technology。 即使拥有40年从业经验,他在见识ChatGPT能力之后,还是不禁发出感慨: 本以为不会有太多惊喜,没成想,还是吓了一跳。 在评测文章中,他还表示这一切既令人着迷,又令人惊讶,同时还令他恐惧。 所以,他具体是怎么做的测试? 我们一同来看下。 精力不够,ChatGPT来凑 此番David老哥之所以要用ChatGPT写代码,源于他妻子在运营电商网站,每月,她需要根据客户群组名单随机选出一部分名字,生成轮播动画。 过去,David老哥的妻子用一个网站生成随机名单,不过,该服务要收费,且不便宜。于是,老哥决定发挥“技术功力”,自己写一个WordPress插件,帮助妻子“降本增效”。 那么问题来了——即便是小小WordPress插件,也需要好几天去完成,这当中需添加用户界面元素,也要编写逻辑代码,鉴于自己实在太忙,于是,David想到—— 最近ChatGPT不是很火么?要不试试? 说干就干,他先写了第一个提示,描述想要的文字(代码)到底是什么。 具体如下: 编写一个PHP 8兼容的WordPress插件,它提供一个文字输入区域,可将列表粘贴进去,还带有一个按钮,按下可将输入条目随机排列再显示出来。 不到一分钟,代码就生成出来了: △图源:David Gewirtz/ZDNET 测试者将上述代码复制到一个.php文件中,压缩并上传服务器。 唔,亲测有效。 当他将该插件拿给妻子看,对方一脸惊讶,不过,她马上加了新需求:重复的名字不能挨着。 于是,码农ChatGPT有了新任务。 需要保证相同条目不会挨着(除非没有其他选项)…此外,输入条目数与结果条目数得相同。 30s后,结果来了。 老样子,上传服务器并测试——有效,但输出包含了空行。 那提示它一下。 …不能有空行… A Few Moments Later…… 结果又来了,测试结果没问题。 继续加大力度,测试者希望该插件能统计一下处理了多少行数据。 结果ChatGPT照样能完成。 让我们一起看看,这款插件的最终形态,功能还挺完善: △能生成相应UI并处理一行行数据...
万字长文:ChatGPT能否成为互联网后下一个系统性机会?量子位2023-02-22 15:59广东量子位2023-02-22 15:59广东
AIGC与原型设计

万字长文:ChatGPT能否成为互联网后下一个系统性机会?量子位2023-02-22 15:59广东量子位2023-02-22 15:59广东

转载自 险峰创量子位 | 公众号 QbitAI 2023年险峰线上沙龙的第一期,我们和四位行业大牛聊了聊最近大火的ChatGPT。 首先介绍一下本场嘉宾:陶芳波博士是前Facebook高级研究科学家,回国后进入阿里达摩院,搭建了阿里的神经符号实验室,属于全球最顶级的AI科学家之一,目前正在创业,担任人工智能公司「心识宇宙」的CEO。 黄东旭是险峰的老朋友,「PingCAP」的联合创始人兼CTO,他本人是国内最早一批开源数据库的创业者,在程序员圈子里非常活跃;PingCAP也是目前Infra领域估值最高的科技公司之一,险峰曾在天使轮分别投资了PingCAP和心识宇宙。 费良宏老师是AWS的首席架构师,曾供职于微软、苹果等多家硅谷巨头担任技术顾问,在云计算行业里深耕多年;龙波博士目前担任Meta商业化AI研究团队的负责人,之前曾深度参与过京东搜索推荐算法的搭建。 此次圆桌由险峰长青投资副总裁李抗主持,李抗主要专注于人工智能、机器人、云计算等方向的投资。 本次我们将聊到: ChatGPT 效果如此“炸裂”,AI从业者们事先是否预见到了?ChatGPT 是否能理解语言逻辑本身?为什么谷歌没能做出 ChatGPT?开源圈和云计算巨头是如何看待 ChatGPT的?ChatGPT 能让TMT投资人“再干15年”吗?ChatGPT 正在对哪些工作岗位造成影响?ChatGPT 广泛使用后,人的认知能力会下降吗?ChatGPT 会导致哪些行业消失?哪些公司急需转型?小公司如何抓住 ChatGPT 的逆袭机会?硅谷现在如何看待 ChatGPT?普通人如何拥抱 ChatGPT ?报考计算机专业还有前途吗?OpenAI的组织设计给创业者带来哪些启示?ChatGPT效果如此“炸裂”,AI从业者们是否预见到了? 险峰:去年AI作画也火过一阵,但都没能像ChatGPT一样让普通人感到震撼,似乎是一夜之间,AI就达到了一个如此炸裂的效果,基于各位对NLP与AIGC的理解,这种进步是在意料之中还是意料之外? 陶芳波:刚才主持人已经介绍过我的背景,我本人从读博士到后来工作创业,一直在从事AI相关的科研工作,但坦白来说,这次ChatGPT给我带来的震撼,并不亚于屏幕前的每个人。 传统上,越复杂的技术,信息壁垒也越高,所以过去的情况往往是,行业内的人都已经知道技术发展到了什么水平,但大众可能还不知道;而ChatGPT完全不是这样,它刚刚诞生3个月,我们就看到无论巨头大厂还是AI科学家们,都马上进入了一种非常紧张的应对状态,甚至可以说是应激状态。ChatGPT突然具有了这么强大的通用性能力和逻辑推理能力,是超出很多AI从业者设想的。 为什么这件事会发生?我仅从个人角度做一个简单的总结。 第一,是大数据和大算力的发展,这是一个基础。2012年深度学习刚刚诞生的时候,大家就尝试把更多的算力和数据灌输到一个模型中去,让AI具有更强的能力,这个逻辑在今天依然没有变化。 我们知道人脑要比动物的大脑更聪明,两者最直观的差别,是人脑的神经元和神经突触更多,比如人脑的神经元有1000亿,神经突触可能有几万亿,今天ChatGPT可以达到上千亿的参数量,已经跟人脑比较接近了,量变才有可能引发质变,AI的发展首先要靠算力数据的指数级发展。 第二,是在人工智能的发展背后,其实一直有「专用人工智能」和「通用人工智能」的两派观点的争论。 以前我们熟悉的人工智能,比如计算机视觉算法和自然语言算法,都属于「专用人工智能」。而在他们以外,其实一直有另一拨人在尝试,有没有可能把单个的专项AI变成一个通用AI?用一个统一的大模型来解决所有的问题? 这里面有几个关键性的节点,首先是2017年,谷歌大脑(Google brain)发表了一篇关于transformer的文章,奠定了包括今天ChatGPT所有技术的基础,细节这里不展开了——总之它让很多人意识到,通用型AI是有可能被造出来的。 对此,谷歌的做法是首先搞一个底座,这个底座叫做「预训练大模型」,然后不断向底座里灌输数据,让它上面能长出一个个小模型来,再用这些小模型去解决不同的任务。 这时出现了一家公司叫OpenAI,他说我不相信仍然需要训练小模型来造出通用AI,那我能不能直接让大模型去阅读互联网上所有的数据?砍掉中间环节,直接让人用语言去和大模型交流? 基于这种思想,OpenAI在2018和2019年,分别推出了GPT1和GPT2,但当时它的通用性还不强,没有引起太多关注,然而到2020年,第三代也就是GPT3出现了。 GPT3直接把模型参数量从15亿提升到1,750亿,接近了人脑中神经连接的数量水平,这时一个神奇的事情就发生了,AI开始「涌现」出了一些人脑独特的能力,甚至出现了逻辑判断能力,这在以前的机器学习界是不存在的,我甚至觉得连OpenAI内部都不一定能预判到这件事情会发生。 而这个GPT3,就是今天ChatGPT诞生的起点,正是因为GPT3的出现,大家才开始去基于它去开发一些全新的AI能力。 可以这么说,从2020年的GPT3开始,整个AI行业都进入到了下一代范式,至于它的边界在哪里,大家都不知道,没有人有足够的认知。 这也是我想讲的第三点,就是OpenAI之所以能超越于谷歌,是他们真的在尝试理解「学习」这件事的本质。 早期的AI要靠人工打标签,要一个活人坐在屏幕前告诉机器——这是一只猫,这是一只狗;之后发展到GPT3,这时已经不用再打标,而是让机器直接去阅读大量的数据,看它能不能找出里面蕴含的规律和规则。 在这个基础上,OpenAI又进一步,他们说既然AI已经学了这么多知识,那下一步就是怎么把这些知识输出来,变成人可以用的东西;于是OpenAI开始教大模型如何自我改造,更好的去解答人类提出的指令,而后甚至演化成AI自我对抗一个人类制定的判断标准,完成AI的“社会化改造”,到2022年,ChatGPT横空出世了。 刚才东旭提到,他现在每天都用ChatGPT帮自己写代码,代码其实比自然语言更有逻辑性,站在AI的视角,等于你也是在帮它培养逻辑能力。 如果说GPT3还在无目的数据中学习,到了ChatGPT就已经变成了“在应用中学习”。整个过程真的很像一个年轻人走出校园,进入到公司中实习的感觉。...
微软Copilot进化完全体,代码解释器、DALL·E 3,ChatGPT有的它都有
AIGC&图标LOGO

微软Copilot进化完全体,代码解释器、DALL·E 3,ChatGPT有的它都有

Copilot 发布一周年之际,将迎来一系列重磅更新! 聊天将支持 128k 上下文,ChatGPT 的代码解释器也将被引入…… 可以说,微软这次是把 GPT 有的功能几乎全搬进了 Copilot。 不仅功能完备,Copilot 的入口更加丰富多样,响应速度也更快捷,关键是还免费。 就在宣布更新几天前,Copilot 刚刚结束近一年的预览阶段,转而成为正式版本。 同时微软还宣布,Copilot 在这一年中已经产生了数十亿次聊天。 那么,此次 Copilot 都更新了什么内容呢? 新增代码解释器 首先来看从 GPT 中搬来的功能,包括新功能的引入和既有功能的强化。 模型层面,微软计划在 Copilot 中使用 GPT4-Turbo 模型进行响应,这意味着将支持128k 长度的上下文窗口。 微软执行副总裁 Yusuf Medhi 说,GPT-4 Turbo 将在未来几周内广泛集成到 Copilot 中。 而 ChatGPT 中最好用的高级数据分析(原代码解释器)功能也确定将在 Copilot 中被复刻。 与 ChatGPT 相似,Copliot 中的代码解释器将支持在沙盒环境中运行...
12月4日银之杰涨停分析:ChatGPT,数字人民币,金融科技概念热股
AIGC&图标LOGO

12月4日银之杰涨停分析:ChatGPT,数字人民币,金融科技概念热股

证券之星消息,银之杰涨停收盘,收盘价 16.88 元。该股于 9 点 46 分涨停,未打开涨停,截止收盘封单资金为 1.87 亿元,占其流通市值 2.17%。 12 月 4 日的资金流向数据方面,主力资金净流入 2.68 亿元,占总成交额 27.06%,游资资金净流出 1.43 亿元,占总成交额 14.43%,散户资金净流出 1.25 亿元,占总成交额 12.63%。 近 5 日资金流向一览见下表: 该股为 ChatGPT,数字人民币,金融科技概念热股,当日 ChatGPT 概念上涨 1.64%,数字人民币概念上涨 1.57%,金融科技概念上涨 1.46%。 以上内容由证券之星根据公开信息整理,由算法生成,与本站立场无关。证券之星力求但不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的的准确性、完整性、有效性、及时性等,如存在问题请联系我们。本文为数据整理,不对您构成任何投资建议,投资有风险,请谨慎决策。 查看原文
ChatGPT一周年,机会在大厂还是小公司?
AIGC&图标LOGO

ChatGPT一周年,机会在大厂还是小公司?

图片来源 @视觉中国 文 | 略大参考,作者 | 尹凯,编辑 | 原野 ChatGPT 会成为 AI 大模型的 “iPhone 时刻 ” 吗? 在这款改变了全球 AI 行业进展的大模型上线一周年之后,答案显然更加明确。GPT 数次进化迭代,大模型浪潮席卷全球,AGI 俨然有引导第四次工业革命之势,也验证了 OpenAI 首席科学家伊利亚的那句话:这是倾盆大雨前的一场雨,是一个分水岭。 更深入更细微的变化还在继续。 ” 在未来两三年内,我们的工作方式、生活方式会有天翻地覆的变化。” 百川智能创始人、CEO 王小川在 12 月 1 日的 2023 腾讯 ConTech 大会中谈到。大会上,他与长江商学院教授、数字化转型中心主任孙天澍,以及复旦大学计算机学院教授、Moss 系统负责人邱锡鹏,探讨了 AI 将在接下来的 20 年里如何重塑各个行业,其中,互联网大厂与创业公司又各自扮演什么角色。 01 变化 从只能处理文字信息的网页端应用,到可以同时处理文字、语音和图像信息的超级应用,ChatGPT 只用了一年。期间,出于对其进化过快的担忧,包括马斯克在内的科技界大佬曾经联名呼吁,要缓一缓。...
AI绘画之问:Midjourney走上神坛,靠什么赚钱机器之能2023-06-01 11:32北京机器之能2023-06-01 11:32北京
Midjourney

AI绘画之问:Midjourney走上神坛,靠什么赚钱机器之能2023-06-01 11:32北京机器之能2023-06-01 11:32北京

撰文 | 木非 Midjourney因为一出乌龙再次倍受关注。 5月17日,一个名为“Midjourney AI”的公众号宣布:从5月15日晚六点起,开放Midjourney官方中文版内测。之后消息遭到删除,有自媒体质疑其为不实消息。 在闹了一出乌龙之后,Midjourney官方正式回应,“Midjourney AI”确属Midjourney官方微信号,开启中文版内测消息属实。Midjourney 官方中文版已经开启内测申请,将搭载在 QQ 频道上,每周一、周五下午 6 点统一开放,达到一定人数后会关闭入口。 另外一个重磅消息是, QQ正在全力支持Midjourney频道的商业化。 在此之前,Midjourney早已火遍全球,对于行业内人来说,更关注的是它开启中国市场将会为AI绘画带来哪些改变以及能否给出一个全新的商业模式。 AI绘画并不是一个新概念。 2017年,Google开源一个AI简笔画应用;同年Facebook发布CAN创造性对抗网络模型。2021年,OpenAI又相继发布DALL-E模型、CLIP模型;而2022年界内更是爆发出各路新模型,整个赛道呈现高速增长的状态。 然而有些出人意料的是,比起深入研发,AI绘画在国内最大型出圈却是流量路线的快车道。与AI绘画相关的微信公众号、小程序近期不断涌现。有大公司,小公司、个体研发也不罕见。去年9月,AI绘画应用不断涌现,包括生成式AI平台TIAMAT、6pen、draft.art、大画家Domo、盗梦师等。 一对九十年代中国情侣,由Midjourney V5生成 今年四月份,Midjourney发布了第五代V5模型之后,AI绘画被再次引爆。它展现出来的AI照片效果逼真、速度快,而且在使用上不需要部署任何本地硬件。由它生成的一张“中国情侣”图片因效果酷似真人而火爆出圈,不少网友表示,在得知它是由AI工具创作之前,只觉得是一张平平无奇的照片。这说明由AI生成的图片和真正的照片在人眼视觉上已经没有了差别,不少人惊呼:AI绘画元年已经到来。 然而另一方面,作为Midjourney最大对手的StabilityAI却陷入连年亏损。 StabilityAI是StableDiffusion的母公司,成立于2019年,属于AI绘画行业老牌公司,在行业内StabilityAI因为其在技术领域做出的巨大贡献而知名。与Midjourney不同,StableDiffusion是开源的,这意味着任何人都可以查看或下载代码,配置一张家用中高端显卡,就能在本地训练和部署AI模型。从开源角度来说,StableDiffusion更像是回到了OpenAI的初衷。 目前,StabilityAI已融资超过1亿美元,其对外宣称StableDiffusion已被全球超过200000名开发者下载和授权,根据《福布斯》报道,StableDiffusion日活用户超过1000万——已经超过OpenAI的DALL-E2,低于Midjourney的1500万。StabilityAI还在探索商业模式,但公司实现的营收,完全覆盖不了巨额的服务器和人才招募的费用。 相比之下,Midjourney公司只有11人,同样云端有大算力消耗,Midjourney似乎走得顺风顺水,V5模型发布之后,迅速爆发,站上AI绘画的龙头,不禁要问:谁是Midjourney?它是一家怎样的公司?Midjourney做对了什么?AI绘画商业模式路在何方? 1.十一人,一亿营收 算起来,Midjourney还是一个新生儿,还没有过它的一岁生日,如同它的创始团队一样年轻,11人散居全球各地,没有固定办公地,最年轻的4人甚至还在读本科。 创始人大卫·霍尔茨(David Holz)是一个身上带着一些理想主义的理工科怪才。 Midjourney创始人David Holz|图源网络 在创立之初,他就给Midjourney设立了一个非常理想主义的宗旨:AI 不是现实世界的复刻,而是人类想象力的延伸。在大卫·霍尔茨的蓝图中,他要打造的是一个“想象力引擎”,他认为想象力是人们在世界上所需东西的重要支柱。而同时,人们可以把AIGC变成一种力量,扩展人类的想象力。 霍尔茨少年天才,高中时期感兴趣的是设计,还做过设计生意。上大学后,他转头学了与设计几乎不相干的物理和数学。研究生期间,他希望能选择与现实有关的专业,于是读了应用数学专业。之后,他又攻读了流体力学博士。 2010年,霍尔茨创立了一家研发手部跟踪技术为主的公司——Leap Motion。这个控制器内装有多种传感设备,能追踪到小到0.01毫米的动作,当你把手放在它正上方,便可以跟踪十指动作,并借助计算机视觉技术,让你的手部动作投射在虚拟空间中。 这款充满着想象和憧憬的产品推出后,Leap Motion一炮而红。2013年经过B轮融资之后达到巅峰状态,估值达到3.06亿美元。然而,由于与之相关的VR/AR技术一直不成熟,Leap Motion也始终没能做出有具体应用场景的产品。最终,2019年,大卫决定把 Leap Motion 公司卖给竞争对手 Ultrahaptics。随后,他成立了一个工作室来探索新的机会。 霍尔茨成立的这家工作室就是后来的Midjourney。他确实等来了新机会。 Transformer架构的出现,彻底改写了图像合成的历史。随后而来的是一个AIGC的大时代,借着生成式AI的东风,霍尔茨带领着他的伙伴们站上了AI绘画的潮头。目前,公司团队成员仅11人,其中1位创始人、8位研发人员、1位法务、1位财务。...
微软DeepSpeed Chat,人人可快速训练百亿、千亿级ChatGPT大模型机器之心Pro2023-04-13 16:18北京机器之心Pro2023-04-13 16:18北京
AIGC&图标LOGO

微软DeepSpeed Chat,人人可快速训练百亿、千亿级ChatGPT大模型机器之心Pro2023-04-13 16:18北京机器之心Pro2023-04-13 16:18北京

机器之心专栏 微软DeepSpeed组 昨日,微软开源的 DeepSpeed Chat 引起了AI社区的广泛关注。 它让我们能够以更低的成本、更快的速度训练类似于ChatGPT的高质量大模型。 链接: https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat 本文对开源的 DeepSpeed Chat 进行了详细的介绍。该博客由微软DeepSpeed组官方撰写并译制,并授权「开源社」首发于中文社区,机器之心转载。 概述 近日来,ChatGPT 及类似模型引发了人工智能(AI)领域的一场风潮。这场风潮对数字世界产生了革命性影响。ChatGPT 类模型具有惊人的泛用性,能够执行归纳、编程、翻译等任务,其结果与人类专家相当甚至更优。为了使 ChatGPT 等模型的训练和部署更轻松,AI 开源社区进行了各种尝试(例如 ChatLLaMa、Alpaca、Vicuna、Databricks-Dolly 等)。 然而,尽管开源社区付出了巨大的努力,目前仍缺乏一个支持端到端的基于人工反馈机制的强化学习(RLHF)的规模化系统,这使得训练强大的类 ChatGPT 模型十分困难。例如,使用现有的开源系统训练一个具有 67 亿参数的类 ChatGPT 模型通常需要昂贵的多卡至多节点的 GPU 集群,但这些资源对大多数数据科学家或研究者而言难以获取。同时,即使有了这样的计算资源,现有的开源系统的训练效率通常还不到这些机器所能达到的最大效率的 5%。简而言之,即使有了昂贵的多 GPU 集群,现有解决方案也无法轻松、快速、经济的训练具有数千亿参数的最先进的类 ChatGPT 模型。 ChatGPT 模型的训练是基于 InstructGPT 论文中的 RLHF 方式。这与常见的大语言模型的预训练和微调截然不同。这使得现有深度学习系统在训练类 ChatGPT 模型时存在种种局限。因此,为了让 ChatGPT 类型的模型更容易被普通数据科学家和研究者使用,并使...

MidJourney

AI绘画之问:Midjourney走上神坛,靠什么赚钱机器之能2023-06-01 11:32北京机器之能2023-06-01 11:32北京
Midjourney

AI绘画之问:Midjourney走上神坛,靠什么赚钱机器之能2023-06-01 11:32北京机器之能2023-06-01 11:32北京

撰文 | 木非 Midjourney因为一出乌龙再次倍受关注。 5月17日,一个名为“Midjourney AI”的公众号宣布:从5月15日晚六点起,开放Midjourney官方中文版内测。之后消息遭到删除,有自媒体质疑其为不实消息。 在闹了一出乌龙之后,Midjourney官方正式回应,“Midjourney AI”确属Midjourney官方微信号,开启中文版内测消息属实。Midjourney 官方中文版已经开启内测申请,将搭载在 QQ 频道上,每周一、周五下午 6 点统一开放,达到一定人数后会关闭入口。 另外一个重磅消息是, QQ正在全力支持Midjourney频道的商业化。 在此之前,Midjourney早已火遍全球,对于行业内人来说,更关注的是它开启中国市场将会为AI绘画带来哪些改变以及能否给出一个全新的商业模式。 AI绘画并不是一个新概念。 2017年,Google开源一个AI简笔画应用;同年Facebook发布CAN创造性对抗网络模型。2021年,OpenAI又相继发布DALL-E模型、CLIP模型;而2022年界内更是爆发出各路新模型,整个赛道呈现高速增长的状态。 然而有些出人意料的是,比起深入研发,AI绘画在国内最大型出圈却是流量路线的快车道。与AI绘画相关的微信公众号、小程序近期不断涌现。有大公司,小公司、个体研发也不罕见。去年9月,AI绘画应用不断涌现,包括生成式AI平台TIAMAT、6pen、draft.art、大画家Domo、盗梦师等。 一对九十年代中国情侣,由Midjourney V5生成 今年四月份,Midjourney发布了第五代V5模型之后,AI绘画被再次引爆。它展现出来的AI照片效果逼真、速度快,而且在使用上不需要部署任何本地硬件。由它生成的一张“中国情侣”图片因效果酷似真人而火爆出圈,不少网友表示,在得知它是由AI工具创作之前,只觉得是一张平平无奇的照片。这说明由AI生成的图片和真正的照片在人眼视觉上已经没有了差别,不少人惊呼:AI绘画元年已经到来。 然而另一方面,作为Midjourney最大对手的StabilityAI却陷入连年亏损。 StabilityAI是StableDiffusion的母公司,成立于2019年,属于AI绘画行业老牌公司,在行业内StabilityAI因为其在技术领域做出的巨大贡献而知名。与Midjourney不同,StableDiffusion是开源的,这意味着任何人都可以查看或下载代码,配置一张家用中高端显卡,就能在本地训练和部署AI模型。从开源角度来说,StableDiffusion更像是回到了OpenAI的初衷。 目前,StabilityAI已融资超过1亿美元,其对外宣称StableDiffusion已被全球超过200000名开发者下载和授权,根据《福布斯》报道,StableDiffusion日活用户超过1000万——已经超过OpenAI的DALL-E2,低于Midjourney的1500万。StabilityAI还在探索商业模式,但公司实现的营收,完全覆盖不了巨额的服务器和人才招募的费用。 相比之下,Midjourney公司只有11人,同样云端有大算力消耗,Midjourney似乎走得顺风顺水,V5模型发布之后,迅速爆发,站上AI绘画的龙头,不禁要问:谁是Midjourney?它是一家怎样的公司?Midjourney做对了什么?AI绘画商业模式路在何方? 1.十一人,一亿营收 算起来,Midjourney还是一个新生儿,还没有过它的一岁生日,如同它的创始团队一样年轻,11人散居全球各地,没有固定办公地,最年轻的4人甚至还在读本科。 创始人大卫·霍尔茨(David Holz)是一个身上带着一些理想主义的理工科怪才。 Midjourney创始人David Holz|图源网络 在创立之初,他就给Midjourney设立了一个非常理想主义的宗旨:AI 不是现实世界的复刻,而是人类想象力的延伸。在大卫·霍尔茨的蓝图中,他要打造的是一个“想象力引擎”,他认为想象力是人们在世界上所需东西的重要支柱。而同时,人们可以把AIGC变成一种力量,扩展人类的想象力。 霍尔茨少年天才,高中时期感兴趣的是设计,还做过设计生意。上大学后,他转头学了与设计几乎不相干的物理和数学。研究生期间,他希望能选择与现实有关的专业,于是读了应用数学专业。之后,他又攻读了流体力学博士。 2010年,霍尔茨创立了一家研发手部跟踪技术为主的公司——Leap Motion。这个控制器内装有多种传感设备,能追踪到小到0.01毫米的动作,当你把手放在它正上方,便可以跟踪十指动作,并借助计算机视觉技术,让你的手部动作投射在虚拟空间中。 这款充满着想象和憧憬的产品推出后,Leap Motion一炮而红。2013年经过B轮融资之后达到巅峰状态,估值达到3.06亿美元。然而,由于与之相关的VR/AR技术一直不成熟,Leap Motion也始终没能做出有具体应用场景的产品。最终,2019年,大卫决定把 Leap Motion 公司卖给竞争对手 Ultrahaptics。随后,他成立了一个工作室来探索新的机会。 霍尔茨成立的这家工作室就是后来的Midjourney。他确实等来了新机会。 Transformer架构的出现,彻底改写了图像合成的历史。随后而来的是一个AIGC的大时代,借着生成式AI的东风,霍尔茨带领着他的伙伴们站上了AI绘画的潮头。目前,公司团队成员仅11人,其中1位创始人、8位研发人员、1位法务、1位财务。...
stable diffusion插件ControlNet
Midjourney

stable diffusion插件ControlNet

stable diffusion的一个插件ControlNet。 个人觉得stable diffusion创作作品相当于开盲盒,AI经常会放飞自我或者细节的不可控。如,在没有指定形象模型,创作形象会根据选择模型生成等。而ControlNet的作用可以很好的进行控制,如人物形象等。 同时ControlNet还有很多其他功能。 操作方法: 在文生图或图生图点击ControlNet插件进行设置,可以开启多个控制元素进行操作。 形象的控制上,个人选择canny、reference和soktedge进行控制。 安装方法: 点击扩展-选可下载-点击扩展列表-搜索ControlNet,选择ControlNet安装,重启就可以使用了。 备注:插件下载后,还需要下载对应的ControlNet模型,模型可以直接bilbil上搜索有人分享。我下载的是13个ControlNet的模型。 个人心得: ControlNet可以有效对创作的作品进行控制,结合反推插件获取TAG,可以有效的进行控制创作。
stable diffusion安装与简单评测
Midjourney

stable diffusion安装与简单评测

最近可以在各个平台上看到stable diffusion的相关案例,各种text2img或是img2img的应用都有非常惊艳的效果。 虽然类似功能的DALL-E已经发布很久了,甚至性能更为强大,但是stable diffusion模型开源所带来的影响力是DALL-E所远远不能比拟的,投石入河激起的涟漪层层荡开,许多新的服务、网站衍生而出,不禁让人吃惊:怎么会那么火? 相关资源 这里简单罗列下stable diffusion相关的各类资源,包括代码、模型等等。 官网:https://ommer-lab.com/research/latent-diffusion-models/论文:https://arxiv.org/abs/2112.10752Github地址:https://github.com/CompVis/stable-diffusion模型下载地址: https://huggingface.co/CompVis/stable-diffusion-v1-2https://huggingface.co/CompVis/stable-diffusion-v1-4/tree/main/safety_checker huggingface权限申请 目前stable diffusion的模型都已经在huggingface上开源发布了,主页上也说明了具体的使用方法,但是由于这种生成式的模型容易被滥用,因此使用受限无法直接下载,还需要在huggingface上注册个人账号后申请使用。 注册账号后,在https://huggingface.co/settings/tokens可以得到对应的tokens,然后本地huggingface-cli login后输入,就可以愉快的使用stable diffusion的相关模型了。如果没有token,代码运行会报错: requests.exceptions.HTTPError: 403 Client Error: Forbidden for url: https://huggingface.co/api/models/CompVis/stable-diffusion-v1-2/revision/main (Request ID: 95rKMncm_EoF-0t_W39_F) 另外Access repository后,就可以下载模型了。 依赖库安装 huggingface中所提供的示例代码,所依赖的是diffusers这个库,访问这个库的GitHub地址:https://github.com/huggingface/diffusers,官方的说法是pip安装就可以。 不过实际测试发现,pip默认安装的版本是0.1.2,而不是推荐的0.2.4,同时即使强制安装了0.2.4,img2img和in-painting所使用的类在这个包中也并不存在,因此更建议的安装方法是clone GitHub仓库到本地后,通过python3 setup.py install安装实现。 text2img测评 简单测评下text2img的功能:输入一段text文字,模型会基于这段描述性文字生成图像img。 代码使用官方提供的示例就可以,由于模型已经下载,因此将路径指定为模型地址即可: # make sure youre logged in with `huggingface-cli login`...
Midjourney官方中文内测来了/《塞尔达传说》或改编电影/英伟达CEO个人安保费大增 756%
Midjourney

Midjourney官方中文内测来了/《塞尔达传说》或改编电影/英伟达CEO个人安保费大增 756%

以下是今晨值得关注的新闻⛵️ Midjourney 官方中文版内测申请开放🍎 Oculus 创始人发文称赞苹果 MR 头设「太棒了」🚗 阿里达摩院放弃自动驾驶研发,业务和团队并入菜鸟🤖 最坏的情况下,AI 可能控制人类并发现人类真无聊?👗 王者荣耀女装品牌 MEETING SHERO 亮相📺 《塞尔达传说》大电影要来了?制作人首谈改编前景Midjourney 官方中文版内测申请开放作为时下最好用的文本生成图像的 AI,Midjourney 于昨日下午正式放出中文版内测邀请,用户可以通过官方的邀请码加入 Midjourney 官方中文版的 QQ 频道。在内测开放申请的内容下方。官方也放上了 Midjourney 中文版简易使用指南:· 目前Midjourney 中文版搭载在 QQ 频道上。

Stable Diffusion

【Stable Diffusion教程】|照片一键修复
StableDiffusion

【Stable Diffusion教程】|照片一键修复

原标题:【Stable Diffusion教程】|照片一键修复 Part 1 Inpaint的原理和实操 【基础介绍】 InPaint是一项图片修复技术,可以从图片上去除不必要的物体,让我们轻松摆脱照片上的水印、污渍、划痕、标志等瑕疵。 一般来讲,图片的Inpaint过程可以理解为两步: 1.找到图片中需要重绘的部分,比如上述提到的水印、污渍、划痕、标志等; 2.去掉水印、污渍、划痕、标志等,自动填充图片上应该有的内容。 【实操部分】 SD Inpaint操作 打开SD→选择图生图→点击Inpaint Sketch→上传图片→遮罩不想要的部分→调整图片尺寸→点击生成 【引导图】 CN Inpaint操作 将图像发送到 Img2img 页面上→在“ControlNet”部分中设置启用(预处理器:Inpaint_only或Inpaint_global_harmonious 、模型: ControlNet)无需上传参考图片→生成开始修复 注意:最好使用与生成图像的同一模型。 CN-inpainting3个预处理器的区别 Inpaint_global_harmonious:提高全局一致性,并允许你使用高降噪强度。 Inpaint_only:不会更改未遮罩的区域。它与 AUTOMATIC1111 中Inpaint_global_harmonious相同。 Inpaint_only lama:用lama模型处理图像。它往往会产生更干净的结果,并且有利于对象删除。 Inpaint预处理器原图处理后Inpaint_global_harmoniousInpaint_onlyInpaint_only lama Part 2 Recolor的原理和实操 【基础介绍】 Recolor是最近新上的 ControlNet 模型,它可以识别图像中的不同区域,并使用不同的颜色重新绘制它们。 【实操部分】 【Recolor模型下载网址】https://huggingface.co/lllyasviel/sd_control_collection/tree/main 【引导图】 Recolor 可以用在“文生图”和“图生图”,实测 Recolor...
大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了”  | CVPR2023
StableDiffusion

大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了” | CVPR2023

丰色 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI “现在Stable Diffusion已经能重建大脑视觉信号了!” 就在昨晚,一个听起来细思极恐的“AI读脑术”研究,在网上掀起轩然大波: 这项研究声称,只需用fMRI(功能磁共振成像技术,相比sMRI更关注功能性信息,如脑皮层激活情况等)扫描大脑特定部位获取信号,AI就能重建出我们看到的图像! 例如这是一系列人眼看到的图像,包括戴着蝴蝶结的小熊、飞机和白色钟楼: AI看了眼人脑信号后,立马就给出这样的结果,属实把该抓的重点全都抓住了: 再发展一步,这不就约等于哈利波特里的读心术了吗?? 更有网友感到惊叹:如果说ChatGPT开放API是件大事,那这简直称得上疯狂。 所以,这究竟是怎么一回事? 用Stable Diffusion可视化人脑信号 这项研究来自日本大阪大学,目前已经被CVPR 2023收录: 研究希望能从人类大脑活动中,重建高保真的真实感图像,来理解大脑、并解读计算机视觉模型和人类视觉系统之间的联系。 要知道,此前虽然有不少脑机接口研究,致力于从人类大脑活动中读取并重建信号,如意念打字等。 然而,从人类大脑活动中重建视觉信号——具有真实感的图像,仍然挑战极大。 例如这是此前UC伯克利做过的一项类似研究,复现一张人眼看到的飞机片段,但计算机重建出来的图像却几乎看不出飞机的特征: △图源UC伯克利研究Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies 这次,研究人员重建信号选用的AI模型,是这一年多在图像生成领域地位飞升的扩散模型。 当然,更准确地说是基于潜在扩散模型(LDM)——Stable Diffusion。 整体研究的思路,则是基于Stable Diffusion,打造一种以人脑活动信号为条件的去噪过程的可视化技术。 它不需要在复杂的深度学习模型上进行训练或做精细的微调,只需要做好fMRI(功能磁共振成像技术)成像到Stable Diffusion中潜在表征的简单线性映射关系就行。 它的概览框架是这样的,看起来也非常简单: 仅由1个图像编码器、1个图像解码器,外加1个语义解码器组成。 具体怎么work? 如下图所示,第一部分为本研究用到的LDM示意图。...
最强AI渲染出图!Stable Diffusion保姆级教程来了!
StableDiffusion

最强AI渲染出图!Stable Diffusion保姆级教程来了!

AI大火对于设计师来说是个不小的冲击最近我们的吧友@CuiLei 就分享了使用Stable Diffusion软件尝试几分钟出一些方案灵感图原始图生成的效果小吧按扎哈的风格画了个草稿图 用吧友分享的方法玩了一下子 草稿图生成的效果图就小吧我这样的绘图水平都能分分钟设计出大师级作品以后还学啥手绘啊(bushi 相信不少人想知道要怎么使用这么好的登西今天带来吧友分享的Stable Diffusion安装使用教程 *文末获取安装包* 安装教程 01.安装之前需先确认:a、显存 4GB 以上(建议N卡,如果是自己训练模型,需更高显存) b、硬盘存储空间,100G 以上 c、操作系统 Win10 及以上如果都满足了,那么你就可以看接下来的安装步骤啦~ 配置太低可以先收藏!02.基础软件安装打开安装包后运行启动器,点击一键启动;(软件来源于B站秋葉aaaki)你没看错这个镁铝就是启动器!注意:启动后会弹出一个控制台界面,这个界面在使用过程中不能关闭! 接着就会弹出以浏览器形式的软件窗口,软件就安装成功了。 03.专业相关的模型安装目前网络上有很多大佬分享专门的基础模型和lora模型,目录表:https://docs.qq.com/sheet/DRXF5cXNlVUpKUnVLB站AI建筑研究室整理分享,不定时更新基础模型: 有CKPT和safetensors格式的,有官方的也有个人根据不同需求单独训练后分享的,下载后放在路径:models\Stable-diffusion,重启UI就可以在下拉菜单中看到安装的模型。 Lora模型:类似于规定风格样式的模型,针对不同需求,可以在网上下载,也可以自己训练,格式一般为safetensors,下载后放在路径:\models\Lora,按下图点击“显示附加网络面板”-Lora就能看到安装的模型; 使用的时候选择想用的模型后,文字栏内出现括号内的内容就可以了。以后直接复制这个文字内容也可以,如下图这样: 到这步其实就已经可以用文字进行出图操作了! 04.Controlnet插件安装 如果需要更精确的根据手稿或者模型导图来生成的话,就需要安装Controlnet插件,可以直接在软件中进行安装。 扩展-可用-点击加载自-找到并点击安装“扩散控制网络(ControlNet插件)” 安装后重启软件,就可以在软件界面的扩展和生成页下方找到插件。 使用的时候勾选启动,在选择不同的预处理和模型,就可以控制生成。 05.Controlnet模型下载 预处理器下会有很多种类,需要下载对应的模型才能使用;网上有很多不同版本的模型,可以按需选择下载安装;下载地址:https://openai.wiki/controlnet-models-download.html 下载后的文件格式为.pth,放至路径:models\ControlNet,安装成功后在下拉菜单中就可以选择模型了。 使用教程 01、全部安装完成后就可以开始使用了,选择基础模型类型-填写关键词-选择lora; 02、选择算法、设置尺寸,如果觉得效果不好,可以更改采样迭代步数,一次生成多张则可以设置生成的批次; 03、在Controlnet区域根据需求选择放图,接着预处理器选择模型类型,设置权重值,数值越大越接近原图;04、取样尺寸按需调整,其他数值也是一样的; 05、点击“预览预处理结果”就可以直接预览生成的线稿轮廓图;(也可以不用预览) 06、然后点击生成就可以了! 如果不满意可以多调整、多尝试不同的参数和Controlnet的预处理模型。 不同参数和提示词生成的效果 图生图的方法也是一样的,只是可以在原始图的基础上生成,如果想要控制范围还是需要加上ControlNet。 除了建筑,还能使用它来填彩平、出室内、风格化效果等等…… 彩平图 图源自小红书@AI avocado 图源自小红书@珠海大西瓜 图源自小红书@Arcai_Vera点击【阅读原文】或者 复制下方地址 sketchupbar.com/thread-385001-1-1.html 即可获取Stable Diffusion安装包如果你有什么好的AI作品,或是有什么想法,欢迎大家加入专属的AI设计讨论群,我们也会在群里分享AI相关的最新资讯!...
开源图像模型Stable Diffusion入门手册
StableDiffusion

开源图像模型Stable Diffusion入门手册

作者:hking Stable Diffusion 是 2022 年发布的深度学习文字到图像生成模型。它主要用于根据文字的描述产生详细图像,能够在几秒钟内创作出令人惊叹的艺术作品,本文是一篇使用入门教程。 硬件要求 建议使用不少于 16 GB 内存,并有 60GB 以上的硬盘空间。需要用到 CUDA 架构,推荐使用 N 卡。(目前已经有了对 A 卡的相关支持,但运算的速度依旧明显慢于 N 卡,参见: Install and Run on AMD GPUs · AUTOMATIC1111/stable-diffusion-webui Wiki · GitHub 过度使用,显卡会有损坏的风险。 进行 512x 图片生成时主流显卡速度对比: 环境部署 手动部署 可以参考 webui 的官方 wiki 部署:Home · AUTOMATIC1111/stable-diffusion-webui Wiki...

DALL-E

微软Copilot进化完全体,代码解释器、DALL·E 3,GPT有的它都有量子位2023-12-06 14:29北京量子位2023-12-06 14:29北京
DALL-E

微软Copilot进化完全体,代码解释器、DALL·E 3,GPT有的它都有量子位2023-12-06 14:29北京量子位2023-12-06 14:29北京

克雷西 发自 凹非寺量子位 | 公众号 QbitAI Copilot发布一周年之际,将迎来一系列重磅更新! 聊天将支持128k上下文,ChatGPT的代码解释器也将被引入…… 可以说,微软这次是把GPT有的功能几乎全搬进了Copilot。 不仅功能完备,Copilot的入口更加丰富多样,响应速度也更快捷,关键是还免费。 就在宣布更新几天前,Copilot刚刚结束近一年的预览阶段,转而成为正式版本。 同时微软还宣布,Copilot在这一年中已经产生了数十亿次聊天。 那么,此次Copilot都更新了什么内容呢? 新增代码解释器 首先来看从GPT中搬来的功能,包括新功能的引入和既有功能的强化。 模型层面,微软计划在Copilot中使用GPT4-Turbo模型进行响应,这意味着将支持128k长度的上下文窗口。 微软执行副总裁Yusuf Medhi说,GPT-4 Turbo将在未来几周内广泛集成到 Copilot 中。 而ChatGPT中最好用的高级数据分析(原代码解释器)功能也确定将在Copilot中被复刻。 与ChatGPT相似,Copliot中的代码解释器将支持在沙盒环境中运行Python代码。 沙盒中预装了许多流行的数据科学工具和库,例如numpy、matplotlib等,以解决复杂的问题。 同时,Copilot还可将用户上传文件和网络搜索结果与代码解释器结合,得到交互式输出。 目前这项功能正在进行小范围测试,并将很快向公众提供。 除了新功能之外,Copilot中已经集成的DALL·E 3绘图功能也将迎来升级。 和原版相比,搭载新版DALL·E 3的新Copilot在细节的处理上更为细腻。 微软在通告中具体展示了一组对比: photorealistic stegosaurus having its bony plates attended to by a nail salon 而关于Bing的老本行——搜索,此次也有两项更新。 首先是搜索与多模态的结合,Copilot将可以通过视觉模型识别到的内容,自动搜索关联信息,生成更为准确详细的回答。 微软展示的案例中,用户上传了一张火箭发射的照片,并提问发射时间,Copilot在识别火箭型号后再网络中对答案进行了搜索。...
微软宣布Copilot接入GPT-4 Turbo、代码解释器、DALL-E 3
DALL-E

微软宣布Copilot接入GPT-4 Turbo、代码解释器、DALL-E 3

注:目前 Copilot 不支持国内用户,若识别到用户使用的是国内 IP 就无法加载了。 今天微软宣布对 Bing Chat 和 Windows Copilot 等产品进行更新,更新后 Copilot 底层使用的模型升级为支持更长字符的 OPENAI GPT-4 Turbo。 同时微软还将 OPENAI 的图像生成模型 DALL-E 3 以及代码解释器等功能集成到 Copilot 里,不过部分功能仅限通过 Microsoft Edge 访问。 微软表示,换成 GPT-4 Turbo 后用户可以处理更复杂和更长的任务,例如编写代码等,这些功能正在面向部分用户进行测试,预计几周内会广泛推出支持所有用户使用。 Microsoft Edge 浏览器用户则可以在网站上 选择文本让 Copilot 进行分析和重写,微软还在致力于为 Copilot 开发一种结合 GPT-4、Bing 图像搜索和网络搜索数据来分析图像的新方法。 对开发者来说代码解释器是非常实用的功能,该功能可以帮助开发者分析代码、排查错误和编写代码,微软表示 Copilot 将编写代码来回答用户提出的更复杂的问题,在沙盒环境中运行该代码为用户提供高质量的回答。 同时代码解释器也支持上传和下载文件,这样用户就可以使用自己的数据和代码来获得...
微软Copilot进化完全体,代码解释器、DALL·E 3,GPT有的它都有
DALL-E

微软Copilot进化完全体,代码解释器、DALL·E 3,GPT有的它都有

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Copilot发布一周年之际,将迎来一系列重磅更新! 聊天将支持128k上下文,ChatGPT的代码解释器也将被引入…… 可以说,微软这次是把GPT有的功能几乎全搬进了Copilot。 不仅功能完备,Copilot的入口更加丰富多样,响应速度也更快捷,关键是还免费。 就在宣布更新几天前,Copilot刚刚结束近一年的预览阶段,转而成为正式版本。 同时微软还宣布,Copilot在这一年中已经产生了数十亿次聊天。 那么,此次Copilot都更新了什么内容呢? 新增代码解释器 首先来看从GPT中搬来的功能,包括新功能的引入和既有功能的强化。 模型层面,微软计划在Copilot中使用GPT4-Turbo模型进行响应,这意味着将支持128k长度的上下文窗口。 微软执行副总裁Yusuf Medhi说,GPT-4 Turbo将在未来几周内广泛集成到 Copilot 中。 而ChatGPT中最好用的高级数据分析(原代码解释器)功能也确定将在Copilot中被复刻。 与ChatGPT相似,Copliot中的代码解释器将支持在沙盒环境中运行Python代码。 沙盒中预装了许多流行的数据科学工具和库,例如numpy、matplotlib等,以解决复杂的问题。 同时,Copilot还可将用户上传文件和网络搜索结果与代码解释器结合,得到交互式输出。 目前这项功能正在进行小范围测试,并将很快向公众提供。 除了新功能之外,Copilot中已经集成的DALL·E 3绘图功能也将迎来升级。 和原版相比,搭载新版DALL·E 3的新Copilot在细节的处理上更为细腻。 微软在通告中具体展示了一组对比: photorealistic stegosaurus having its bony plates attended to by a nail salon 而关于Bing的老本行——搜索,此次也有两项更新。 首先是搜索与多模态的结合,Copilot将可以通过视觉模型识别到的内容,自动搜索关联信息,生成更为准确详细的回答。...
微软的Copilot将获得OpenAI的GPT-4 Turbo、DALL-E模型和新版代码解释器
DALL-E

微软的Copilot将获得OpenAI的GPT-4 Turbo、DALL-E模型和新版代码解释器

微软正在详细介绍其 Copilot 服务即将推出的一系列新功能,包括 OpenAI 的最新模型。Copilot 将很快获得对 GPT-4 Turbo 的支持,同时更新的还有 DALL-E 3 模型、新的代码解释器功能和必应内部的深度搜索功能。 Copilot 很快就能使用 OpenAI 最新的 GPT-4 Turbo 模型做出响应,这意味着它将”看到”更多数据,因为它拥有 128K 的上下文窗口。更大的上下文窗口将使 Copilot 能够更好地理解查询,并提供更好的回复。”微软公司执行副总裁兼消费者首席营销官 Yusuf Medhi 解释说:”该模型目前正在部分用户中进行测试,并将在未来几周内广泛集成到 Copilot 中。” DALL-E 3的改进 当你还在等待GPT-4 Turbo模型出现在Copilot中时,微软已经在必应图像创建工具和Copilot中使用了改进后的DALL-E 3模型。Medhi说:”现在,用户们可使用Copilot创建质量更高、更精确的图像,并使用更新的DALL-E 3模型进行提示。” 包含 Copilot 侧边栏的 Microsoft Edge 也获得了在网站的文本输入中撰写文本的功能,可以在线改写句子。你现在还可以在 Microsoft Edge 中使用 Copilot 来总结你在 YouTube...
当中国古诗词遇上AI绘画:这才是DALL·E 3的正确打开方式!
DALL-E

当中国古诗词遇上AI绘画:这才是DALL·E 3的正确打开方式!

提供1000+款AI效率工具丨AIEVA.CN丨欢迎访问 AI奇点网-AI资讯特刊丨12月4日 ▷公众号菜单栏点击「干货在这」◁ 免费领取海量AI绘画深度教程 今天是本周上班的第一天,咱们来看点轻松的。 OpenAI在今年9月底发布了新一代的AI图像生成大模型DALL·E 3。 得益于ChatGPT的强大语感能力。 DALL·E 3生图真的超级强,尤其是对于提示词的语义理解方面,甚至超越目前的AI绘画老大哥Midjourney。 还没看过本账号测评文章的家人们可以复习一下: 推荐文章:ChatGPT迎接最强绘图搭档DALL·E 3,vs Midjourney对比实测 通过DALL·E 3,你甚至可以一句话轻松生成机动战士高达手稿。 今天给家人们介绍一个很有意思的AIGC项目——Daily Poetry Images(每日诗情画意)。 EVA一直在想,中国的传世诗词,描绘的是一幅怎样的场景? 一个人的想象力是有限的。2023年的今天,就可以借由AI实践了。 据介绍,该项目无需人工值守,完全由开源代码自行驱动,因此不能保证每天生成的图像质量都很顶~ AI会从一个名叫《今日诗词》的网站自动获取诗词文案。 这家网站根据每天的时间、地点、天气、事件自动返回一句诗词。 然后AI会将诗句转换为提示词组合,搭配DALL·E 3生成AI图像。️ 该项目从11月初开始跑,已经跑了整整一个月了。 一个月30多句诗词,里边不乏生成品质非常不错的作品。 EVA挑了几句给大家赏析—— 绿树村边合,青山郭外斜。 ——《过故人庄》孟浩然 诗词翻译:翠绿的树林围绕着村落,苍青的山峦在城外横卧。 空床卧听南窗雨,谁复挑灯夜补衣。 ——《半死桐·重过阊门万事非》贺铸 诗词翻译:夜间辗转难眠中,昔日妻子挑灯补衣的情景历历在目,却再难重见。 夜来幽梦忽还乡,小轩窗,正梳妆,相顾无言,惟有泪千行。 ——《江城子·乙卯正月二十日夜记梦》苏轼 诗词翻译:晚上忽然在隐约的梦境中回到了家乡,只见妻子正在小窗前对镜梳妆。两人互相望着,千言万语不知从何说起,只有相对无言泪落千行。 父耕原上田,子劚山下荒。 ——《田家》聂夷中 爸爸在山上耕田,儿子在山下开荒。 古戍三秋雁,高台万木风。 ——《鲁连台》屈大均 诗词翻译:在这个秋天里,大雁依旧南飞,高台上的树木依旧挺拔。 竹树带飞岚,荇藻俱明丽。 ——《湘江秋晓》刘道著...
ChatGPT可以使用DALL·E3啦!OpenAI还开放了论文新浪财经2023-10-20 10:39新浪财经2023-10-20 10:39
DALL-E

ChatGPT可以使用DALL·E3啦!OpenAI还开放了论文新浪财经2023-10-20 10:39新浪财经2023-10-20 10:39

来源:火讯财经 文章转载来源:AIGC开放社区 原文来源:AIGC开放社区 图片来源:由无界 AI生成 10月20日凌晨,OpenAI在官网宣布,现在所有ChatGPT plus和企业版用户,可以使用最新的文生图模型DALL·E 3。 DALL·E 3是OpenAI在今年9月21日发布的最新产品,用户通过文本问答方式就能生成二次元、平面、创意、朋克、3D等多种类型的图片,例如,生成一个在火星奔跑的兔子,荒漠,废土风格,漫天风沙。 值得一提的是,DALL·E 3在语义理解、图片二次修改、大段文本输入等方面,比Midjourney强很多,并且图片质量比DALL·E 2实现了巨大提升。 此外,OpenAI还开放了DALL·E 3的研究论文和系统卡,「AIGC开放社区」后续会详细为大家介绍该内容。 DALL·E 3论文地址:https://cdn.openai.com/papers/dall-e-3.pdf‌ DALL·E 3系统卡:https://openai.com/research/dall-e-3-system-card‌ 根据OpenAI展示的内容来看,DALL·E 3在文本输入方面更优秀、人性化,可以将一整大段内容输入到ChatGPT中进行生成图片。 细节方面,DALL·E 3在脸部、手臂等方面的处理更加精准,支持横向和纵向宽高比。 例如,我正在为科学课做一份关于卷云的报告,需要一些逼真的图像来展示它们的纤细形态。同时需要与浮肿积雨云的照片进行比较。 很快ChatGPT就能生成符合标准的高质量图片。 我正在与一位网页设计师,合作创建一个销售自行车头盔的新网站。能否推荐一些既现代又简单的网站用户界面,用于分享作为示例? 一张照片中,一位皮肤古铜色的中年波利尼西亚男性冲浪者奋力冲浪,手里拿着50 件物品,包括茶杯、自行车、雨伞、烛台、口琴、地球仪、笔记本、羽毛、秒表、棋盘、弹珠、围巾、灯笼、画笔、凉鞋、指南针、望远镜、扳手、花瓶、溜溜球、鹅毛笔、水壶、书包、贝壳、挂坠盒、铅笔、日晷、卷尺、算盘、袖扣、保龄球、口哨、抹刀、抹刀、沙漏、大礼帽、笛子、显微镜、拼图游戏、放大镜、飞盘、陀螺、手电筒、跳绳、开罐器、风铃、盆景树、擀面杖、热水瓶和打字机等。海浪在他周围拍打,他的表情充满痛苦和轻微的恐慌,并试图平衡物体和他的冲浪板。 巨型机器人的手的特写照片,细节复杂,磨损迹象明显,溅入清澈的河水中。飞溅产生的涟漪扩散开来,反射阳光。手部的金属表面有划痕和凹痕,显示出其年代感。 由珊瑚和水母制成的相机,沉浸在广阔的蓝色海洋深处。相机的外表面饰有珊瑚和闪亮的金色金属装饰。深蓝色的背景上充满了微小的漂浮微生物,采用高质量的光学器件进行描绘,使图像具有胶片颗粒纹理和柔和的色彩。 一个巨大的观察眼睛,虹膜错综复杂,瞳孔与向日葵类似。深邃而黑暗的瞳孔出现在向日葵的中心,周围的金色虹膜图案与花瓣相映。 精致纸张上的剪纸插图,略有磨损,错综复杂的 3D 立体弹出式花园,配有锦鲤池和石灯笼,通过精确的切割和折叠使自然场景栩栩如生,雕塑设计艺术。 负责任安全的DALL·E 3 OpenAI表示,采用了多层级的安全系统,以限制DALL·E 3生成可能有害的图像,包括暴力、成人或仇恨内容。在将结果图像展示给用户之前,会对用户的提示和生成的图像进行了安全检查。 OpenAI还与早期测试用户和专业的安全人员合作,识别和解决了新模型功能带来的安全体系漏洞。例如,他们的反馈帮助识别了生成图形内容的边缘案例,如性感图像,并对模型生成令人信服的误导性图像的能力进行了压力测试。 在DALL·E 3部署的环节中,OpenAI也采取了安全措施,以降低模型生成特定艺术家风格的内容、公众人物的图像,以及改善生成图像中的人口代表性。 举报/反馈
DALL-E 2允许用户画脸!OpenAI:全新审核机制,不怕Deepfake作乱
DALL-E

DALL-E 2允许用户画脸!OpenAI:全新审核机制,不怕Deepfake作乱

编辑:David 武穆 【新智元导读】「AI艺术家」DALL-E 2宣布,准备允许用户上传和编辑人脸,自称安全机制已更新,不怕Deepfake泛滥。 近来大火的「AI艺术家」DALL-E 2的东家 OpenAI 最近宣布,未来打算允许用户和DALL-E 2一起搞艺术创作,就从人脸开始。 OpenAI表示,有权访问DALL-E 2的客户可以使用AI驱动的图像生成系统上传人脸照片,并进行编辑。 这个功能此前是禁用的,OpenAI只允许用户使用和分享包含人脸的图片,但禁止上传任何可能描绘真实人物的照片,包括知名名人和公众人物的照片,更禁止编辑。 现在,OpenAI表示,由于安全系统得到了改进,可以将Deepfake以及关于性、政治和暴力内容的「潜在危害最小化」,所以,人脸图片的编辑功能可以开放。 在给客户的一封电子邮件中,OpenAI 表示: 很多人对我们讲,说怀念能用DALL-E为自己设计服装和发型,编辑家庭照片的背景的时候。一位整形外科医生告诉我们,他一直在使用DALL-E帮助病人生成可视化结果。电影制作人说,他们希望能够编辑与人在一起的场景图像,加快创作过程……所以我们建立了新的检测和响应技术,以防止滥用。 OpenAI的政策变了,允许开放,也不意味马上开放。 OpenAI的服务条款,恐怕还将继续禁止上传未经用户同意的照片或用户没有权利上传的图片——尽管目前还不清楚该公司在执行这些政策方面的一贯态度。 无论如何,这将是对OpenAI审核机制的一次真正考验。 过去,一些客户曾抱怨该技术「过于热心」,总是频频提醒,但这种提醒有时候并不准确。 Deepfake有很多种形式,比如假的度假风景照:一个用户在Facebook上晒出了一些度假潜水时拍的照片。 实际上,这20多张照片中有4张是DALL-E 2 生成的图像。他把真假照片混在一起放在网上让大家猜,结果发现没有几个人能辨得出真假。 实际上,有83%的人根本没看出下面这4张照片是DALL-E 2生成的。 还有饱受战争蹂躏国家的总统照片,可以说,就没有Deepfake造不了假的图像。 如果说每出现一种Deepfake图像,都要做出一番解释,将是一场永无止境的战斗,在某些情况下,风险也非常大。 毫无疑问,得到了微软和包括Khosla Ventures在内的知名风投公司的支持的OpenAI,可不想像Stable Diffusion那样,将自己置于「引战」的位置。 此前,科技博客TechCrunch曾分析道,用不了多久,可以编辑脸部图像的Stable Diffusion就会被一些人用来制作带有色情的、未经授权的Deepfake名人照片。 用AI复活的已故名人照片 迄今为止,OpenAI将自己定位为Stability AI之外的另一种选择:Stability AI崇尚自由,毫无限制,OpenAI则强调品牌亲民,遵纪守法。 由于DALL-E 2在最新的面部编辑功能依然有限制,可以认为该公司维持了现状。 目前,DALL-E 2仍然是处于测试版,用户没有开放注册,仍为邀请制。 8月底,OpenAI宣布,已经有超过100万人在使用这项服务。 参考资料: https://techcrunch.com/2022/09/19/openai-begins-allowing-users-to-edit-faces-with-dall-e-2/ https://www.mattbell.us/my-fake-dall-e-2-vacation-photos-passed-the-turing-test/