每周AI大事件 | GPT-3.5开放微调功能、百度将推文心大模型4.0、Midjourney推局部重绘功能、Meta开源Code Llama
欢迎来到编程客栈的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。
PART 1 动态
(资料图片)
[国内要闻]
1.美图设计室 AI Logo 设计功能上线
美图公司旗下美图设计室推出了 AI Logo 设计功能,用户只需输入一句想法,即可生成多个不同风格的 Logo。AI Logo 设计功能基于美图 AI 技术,智能识别用户创意想法,进行 Logo 的定制化设计,用户只需输入品牌名和一句话描述,AI 即可几秒快速生成多款不同风格及排版样式的优质创意 Logo。
2.联发科:新旗舰芯片将支持由 Llama2模型开发的 AI 应用
联发科技将利用 Meta 的新一代开源大语言模型 Llama2以及其先进的 AI 处理器和完整的 AI 开发平台,建立终端侧 AI 计算生态,加速智能手机、物联网、汽车、智能家居等边缘设备的 AI 应用开发。预计年底将采用 MediaTek 新一代天玑旗舰移动芯片的智能手机支持由 Llama2模型开发的生成式 AI 应用。
3.阿里巴巴国际站发布全链路外贸 AI 产品 包括生意助手、OKKI AI
文章核心内容总结:阿里巴巴国际站推出了全链路外贸 AI 产品,拥有多项功能,包括智能商品发布与管理、市场分析、客户接待、实时翻译和企业管理等,覆盖了外贸生意的各个环节。该产品包含生意助手和 OKKI AI,阿里国际站商家可以使用 AI “生意助手”,而 OKKI AI 则面向全行业所有商家开放。
4.知网与华为成立人工智能联合创新实验室 共创 “华知” 大模型
同方知网与华为公司合作成立人工智能联合创新实验室,共同开展联合创新和技术攻关。他们将共同研究大模型在知识服务领域的应用,并合作开发各类行业大模型和场景大模型。
5.好未来数学大模型 MathGPT 正式上线 并开放公测
好未来自研的数学领域千亿级大模型 MathGPT 正式上线并开启公测。用户可通过官网申请注册账号免费试用体验。MathGPT 是面向全球数学爱好者和科研机构的大模型,可以解答数学题并提供解题反馈。
6.网易 AI 创意工坊:无需部署、无需安装即可体验 Stable Diffusion
网易 AI 创意工坊是一款优秀的人工智能绘画工具,用户无需部署、无需安装即可体验 Stable Diffusion。只需要通过文字描述,就可以生成风格多样的图像,实现人人 “创作自由”、“绘画自由”。该工坊为设计师提供了灵感和设计流程相关工具,提升了生产效率。工坊提供了免费的入门教程和应用案例,帮助用户快速掌握人工智能绘画知识。
7.昆仑万维推出 AI 搜索产品 “天工 AI 搜索” 并开启内测申请
昆仑万维推出了国内第一款 AI 搜索产品,名为 “天工 AI 搜索”。该搜索引擎采用大语言模型技术,能够通过对话式交互理解用户意图,并提供精准、个性化的答案。与传统搜索引擎相比,天工 AI 搜索具备更好的信息提取能力、知识生成能力和意图识别能力。
8.百度预计将在年底推出文心大模型4.0视文心一言为新流量渠道
百度发布了2023年第二季度财报,营收为341亿元,净利润为52亿元。百度管理层表示,公司将视文心一言为新的流量渠道,通过优化搜索功能和推动移动互联网生态获得更多流量。此外,百度正在开发文心大模型4.0版本,预计在年底推出。
9.钉钉推出数字员工功能 可用 AI 替身开会
钉钉在2023年生态大会上推出了数字员工功能,可以代替用户参与会议,并通过对话了解会议信息。
10.视觉中国:会基于开源大模型打造自己的垂直模型
视觉中国在投资者关系活动记录表中表示,公司拥有丰富的数字内容版权交易场景,并计划基于开源的大模型,结合核心数据和业务场景,打造自己的垂直模型。
11.百度:在未来几个季度加大对大语言模型和生成式 AI 的投入
百度 CEO 李彦宏表示,生成式 AI 和大语言模型具有巨大的变革能力,为百度提供了重大的市场机会。百度将加大对大语言模型和生成式 AI 的投入,不断升级模型以保持行业领先地位。
12.百度:将在10月17日发布多款 AI 原生应用
百度宣布将于10月17日举办 Baidu World2023,主题为 “生成未来(PROMPT THE WORLD)”。届时,百度将发布多款 AI 原生应用,并介绍大模型的最新进展。
13.快手自研大模型 “快意” KwaiYii 亮相
快手自主研发的大模型 “快意” 在多个大模型榜单上表现出色。新版本的 KwaiYii-13B 在 CMMLU 中文向排名第一。KwaiYii-13B-Chat 对话模型具备出色的语言理解和生成能力,支持内容创作、信息咨询、数学逻辑、代码编写、多轮对话等广泛任务。
14.星火认知大模型男性用户占比约达82%
科大讯飞公布了讯飞星火认知大模型上线100多天的数据。根据数据,男性用户在该模型中的使用比例明显高于女性用户,男女比例为82% 比18%。此外,中青年用户是该模型的主要使用者,一线城市和新一线城市的用户占比超过52%,其中广东占比最高。星火大模型的用户主要来自互联网、科研、教育、市场媒体等行业,其中30% 以上的用户是 IT 互联网工作者。
15.百度发布文心一言面向开发者三大举措 推出 AI Studio 星河大模型社区
百度推出自研大语言模型 “文心一言” 的三大举措面向开发者,包括推出 AI Studio 星河大模型社区、插件机制以及文心大模型 “星河” 共创生态计划。AI Studio 星河大模型社区为开发者提供一体化大模型开发体验,已积累超300个大模型创意应用。插件机制为开发者提供低门槛的插件开发工具集,支持多类型的插件开发。
16.快手 AI 对话功能已在安卓版 APP 开放内测
快手宣布基于自研大语言模型应用的 “快手 AI 对话” 功能已在安卓版本开放内测。该功能可以通过与用户的对话,帮助用户快速查找短视频、达人、百科等内容,提供全新的信息获取形态。此举打破了站内内容的生态壁垒,为用户提供了全网检索服务和全新的信息获取方式。。
[国际要闻]
1.IBM 向开源 Hugging Face 投资2.35亿美元
IBM 与开源 AI 平台 Hugging Face 合作,通过 IBM 的生成式 AI 平台 Watson X 帮助企业构建、部署和定制跨多个领域的基础模型。AI 构建者可以在 Watson X 上利用 IBM 和 Hugging Face 社区的预训练模型来支持自然语言处理任务。Hugging Face 获得2.35亿美元的融资,将继续推动 AI 研究的创新并通过开源技术普及 AI。IBM 的投资表明其致力于推进 AI 研究的发展,并加速推出企业级 AI 解决方案。合作的目android标是帮助各种组织构建负责任和有目的的 AI 应用程序。
2.英伟达股价飙升至历史新高 AI芯片需求推动本季度销售额将增长170%
英伟达公司在第二季度财报中公布了亮眼的业绩,并对当前季度的销售额做出了乐观预测。公司预计本财季的销售额将增长170%,超过去年同期。这主要得益于人工智能芯片的需求推动,尤其是英伟达的 A100和 H100AI 芯片在生成型人工智能中的重要作用。
3.Upwork 公布2023年十大生成式 AI 相关技能和招聘情况
根据 Upwork 的调查显示,由于生成式人工智能的普及,49% 的招聘经理计划雇佣更多的独立人才和全职员工来满足需求。2023年上半年,生成式 AI 是 Upwork 平台上增长最快的领域,岗位发布量增加了1000% 以上,相关搜索增长了1500%。该平台公布了2023年上半年十大生成式 AI 相关技能和招聘项目。
4.德国未来几年将在人工智能领域投资超过16亿欧元
德国政府计划在未来两年内将人工智能公共研究投资增加一倍,从5亿欧元增加到近10亿欧元,使总投资达到16亿欧元。这笔资金将用于建立150个新的大学人工智能研究实验室、扩充数据中心和提供人工智能训练数据集。
5.微软 Edge 集成 AI 设计工具 Designer 从侧边栏即可访问
微软将免费的人工智能设计工具 Microsoft Designer 集成到 Edge 浏览器的侧边栏中,用户可以在 Edge 中创建各种设计作品,如社交媒体帖子、传单等,无需打开其他页面。
6.重磅!GPT-3.5Turbo 推出微调功能,可以打造专属 ChatGPT 啦!
OpenAI 推出了 GPT-3.5Turbo 微调功能,并更新了 API,使企业和开发人员能够使用自己的数据构建专属的 ChatGPT。微调功能可以提升模型在特定任务上的性能,甚至超越 GPT-4的基本功能。微调的基本思想是在预训练模型的基础上,对特定任务进行深度训练,使模型在特定业务场景上的性能更好。开发人员可以通过准备数据、上传文件、创建微调作业等步骤进行微调。
7.AI 训练数据集 “Books3” 遭下架
反盗版组织成功要求在线盗版书籍资源库 TheEye 下线 AI 训练数据集 "Books3",该数据集包含37GB 的文本,用于训练人工智能模型。反盗版组织表示 AI 对版权产生了新的挑战,计划继续打击其他存有该数据集的网站。此外,Meta 等公司也使用了 "Books3" 数据集来训练 AI 模型。
8.Google DeepMind 提供免费高质量 AI 图像 浏览量超1亿
Google DeepMind 推出 VisualisingAI 项目,提供多样化且高质量的 AI 图像,旨在摆脱 AI 图像的刻板印象。与艺术家合作创作的这些图像已被100多个国家使用,浏览量超过1亿次,下载超过80万次。
9.《纽约时报》屏蔽了 OpenAI 的网络爬虫 GPTBot
《纽约时报》屏蔽了 OpenAI 的网络爬虫,这意味着 OpenAI 无法使用该出版物的内容来训练其人工智能模型。《纽约时报》在更新服务条款后,明确禁止使用其内容进行人工智能训练。此举可能对 OpenAI 的研究和发展产生影响,并引发有关知识产权和数据使用权的讨论。
10.美国法院裁定人工智能生成的艺术不受版权保护
美国联邦地区法院法官 Beryl Howell 支持美国版权局的裁决,认为人工智能系统创造的艺术作品没有符合版权保护的资格,因为缺乏人类的作者参与。这个裁决可能会对好莱坞产生影响,以及他们愿意采用由人工智能生成的内容。
PART 2 热门产品
1.可商业化,最强开源文本生成代码模型!Code Llama 重磅发布
Code Llama 是基于 Meta 发布的 Llama2大语言模型开发的文本生成代码模型,提供基础代码和针对 python 开发和自然语言指令微调的三种参数模型。该模型支持多种主流编程语言,能够直接根据自然文本或代码生成代码。Meta 表示,Code Llama 在代码任务上的表现优于目前所有开源代码模型,并在性能评测中表现出色。
2.鸭嘴兽 -70B 登顶 HuggingFace 开源大模型排行榜
鸭嘴兽 -70B 模型在 HuggingFace 的开源大模型排行榜上获得第一名。该模型使用优化过的数据集 Open-Platypus 进行训练,删除相似和重复问题。研究人员使用 LoRA 和 PEFT 对模型进行微调,重点优化非注意力模块。
3.AI2发布大语言模型开源数据集 Dolma 包含3万亿个 token
美国艾伦人工智能研究所最近发布了一个名为 Dolma 的开源数据集,其包含了3万亿个 token,这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma 是目前公开可用的同类数据集中最大的一个。Dolma 的数据将为 AI2正在开发中的开放语言模型 OLMo 提供基础。
4.Elevenlabs 推新版本:支持28种语言 拥有100万用户
Elevenlabs 推出了新模型 “ElevenMultilingualv2”,该模型可以自动识别28种语言,并将文本转换为语音。新模型实现了更高的语音真实性,通过保留所有语言中的语音特征,使一个声音可以用于所有语言。Elevenlabs 的技术已经拥有超过100万用户,并计划推出一个新功能,允许用户在平台上共享语音。
5.Claude 与 ChatGPT 哪家强?Claude 可以做,ChatGPT 却做不到的4件事
该文章对比了人工智能聊天机器人 Claude 和 ChatGPT 在四个方面的优势。首先,ClaudeiExWKQMtOB可以读取、分析和总结上传的文件,而 ChatGPT 不能。其次,Claude 可以处理更多的单词,具有更大的上下文能力。第三,Claude 使用了比 ChatGPT 更新的数据,了解2021年之后的信息。最后,Claude 可以访问网页链接并尝试总结其内容,但存在生成虚假内容的风险,而 ChatGPT 完全无法处理网页链接。
6.1300亿参数,国内首个数学大模型 MathGPT 上线!多项基准赶超 GPT-4
国内首个专为数学打造的千亿级大模型 MathGPT 正式上线,并在多项基准测试中超过了 GPT-4,刷新了 SOTA。MathGPT 能够通过上传数学题目的文字或图片,提供对话式的解答反馈,还支持随机生成数学题目并给出解答。该模型在解题准确率、稳定性和用户体验方面有明显优势,通过海量名师解题过程的数据进行训练,能够提供清晰、详细的解题步骤和讲解。
7.Meta多语言语音翻译模型 SeamlessM4T:可翻译多达100种语言、语音或文本
Meta 宣布推出 SeamlessM4T,一种多模态人工智能模型,可用于语音和文本翻译。该模型支持文本到语音、语音到文本、语音到语音和文本到文本的翻译,可以翻译多达100种语言。Meta 的目标是帮助不同语言的人更有效地交流。他们还发布了 SeamlessAlign,这是一个开放的多模式翻译数据集,可用于训练翻编程译人工智能模型。
8.Hugging Face 推开源多模态 AI 模型 IDEFICS 支持图像、文本输入
Hugging Face 最近推出了一个名为 IDEFICS 的开源多模态 AI 模型,该模型可以接受图像和文本作为输入,并生成连贯的文本输出。IDEFICS 是一个强大的视觉语言模型,具有800亿个参数,并支持根据图像生成描述、回答相关问题以及根据多个图像生成叙述等功能。
9.Midjourney局部重绘功能来了 (官方教程)
StableDiffusion危矣!昨晚,Midjourney发布了一个强大的局部重绘功能Vary(Region),该功能可以对图像指定区域进行重新生成,实现对图像的微调和大幅度编辑。
10.用 ChatGPT 方式开发游戏:文本直接生成小游戏,StoryGames.AI 来了!
知名无代码游戏开发平台 buildbox 正式发布了集成生成式 AI 的游戏开发平台 StoryGames.AI。该平台通过将 buildbox 游戏开发引擎与生成式 AI 相结合,用户只需提供文本提示,就能在5分钟左右生成一个10章节的视频小游戏。虽然目前生成的游戏质量还无法与专业开发端媲美,但展示了用 ChatGPT 的方式开发游戏是可行的,使没有编程经验的普通人也能创建游戏。
11.AI 代码神器火了,复杂操作秒变 easy
AI 代码编辑器 Cursor 通过接入 GPT-3.5/GPT-4,实现了跨文件提问和执行操作的功能,备受关注。它可以帮助程序员解决复杂的操作,如代码执行失败时的自动调试和错误解决。网友称其为最佳 AI 代码编辑器,表示要抛弃 VS Code 并转向 Cursor。Cursor 可以轻松导入 VS Code 的主题、插件和设置,使用起来非常简单。此外,Cursor 还具有代码生成、问题提问和错误修改等功能,大大提高了编码效率和生产力。
12.midjourney 画质一秒变清晰!Tracejourney 可将 Midjourney 图片转为矢量图
Tracejourney 是一个免费的 Discord 机器人,旨在为任何插图创建矢量文件。它可以将 Midjourney 图片转换为矢量图或进行放大。它提供了工作流程选择和快速交付功能,操作简单且用户友好。
13.拖拽下图像就能生成视频,中科大、微软等 DragNUWA 属实惊艳
文章介绍了 DragNUWA,这是一种基于开放域扩散的视频生成模型,由中国科学技术大学、微软亚洲研究院和北京大学的研究者共同开发。该模型通过语义、空间和时间三个角度实现对视频内容的细粒度控制。它可以通过拖动物体对象的运动轨迹来生成连贯的视频,还可以变换静态景物图像的相机位置和角度。
14.视频版 ControlNet 开源 CoDeF 靠提示词就能切换画风
该篇文章介绍了最新的视频处理算法 CoDeF,它可以根据提示词精准控制视频元素的改变,实现视频的重构和不同画风的切换。该算法由全华人团队开发,已在 github 上开源。CoDeF 可以将风景纪录片秒变为国风水墨大作,还可以将电影角色一键变老,而其他细节不受影响。
15.一句话让 AI 训练 AI!20分钟微调羊驼大模型,从数据收集到训练全包了
通过一个 AI 工具,只需用一句话描述你想要的大模型的功能,就可以让 AI 自动完成从生成数据集到微调训练的全过程。这个工具可以帮助搞定数据收集、写代码等操作,只需要用人话描述需求,然后等待即可。作者举例,用这个工具将羊驼大模型微调成优化 GPT-4提示词,整个过程只需20分钟。
PART 3 观点
1.报告:新加坡员工是全球最快采用人工智能技能的人群
根据 LinkedIn 最新的《未来工作》报告,在采用人工智能技能方面,新加坡员工是世界上最快的。报告收集了来自25个国家的数据,发现新加坡的 “扩散率” 最高,即在个人资料中添加人工智能技能的会员比例比2016年1月增长了20倍。
2.昆仑万维:AI 社交与 AI 动漫产品预计于年内上线
昆仑万维在2023年上半年实现了8% 的营业总收入增长,整体毛利率达到80%。公司计划在年内推出 AI 游戏、AI 音乐、AI 动漫、AI 社交等多款全新产品。AI 游戏已进入高强度研发测试阶段,预计将在一年内正式上线。AI 社交与 AI 动漫产品也计划在年内上线。
3.普林斯顿大学教授认为,生成式 AI 炒作已 “失控”
普林斯顿大学计算机科学专家 Arvind Narayanan 和他的学生 Sayash Kapoor 将出版新书 “AISnakeOil”,探讨人工智能领域存在的许多炒作。尽管生成式 AI 取得很大进步,但部分炒作已经失控。
4.Gartner:2023年全球 AI 芯片收入将达530亿美元2027年达1194亿美元
根据 Gartner 预测,2023年全球用于执行 AI 工作负载的半导体销售收入预计将同比增长20.9%,达到534亿美元。到2027年,AI 芯片收入预计将比2023年的市场规模增长一倍以上,达到1194亿美元。
5.三分之二的专业人士认为 AI 将提高他们的技能价值
最近人工智能高速发展,不少人担心被 AI 取代工作。但是汤森路透一项调查显示,许多专业人士对 AI 持较为积极的态度,不太担心被取代。调查总体显示,专业人士对 AI 的积极态度,认为 AI 能提高他们的技能价值。调查还发现,超过三分之二的受访者预计依赖非传统技能员工的工作量将增加,并认为 AI 将催生新的职业道路。
6.调查显示:人工智能将在未来一年塑造全球零售业
霍尼韦尔最近的调查显示,人工智能、机器学习和计算机视觉技术正在深刻影响零售业,并预计在未来一年将进一步塑造全球零售业的发展。调查显示,近六分之一的零售商计划在明年采用这些技术来提升购物体验。零售商认为人工智能等技术可以补充和增强劳动力,而不是取代员工。然而,预算限制和难以证明商业价值仍然是采用人工智能的障碍。
7.联合国研究:AI 不太可能破坏就业,但某些员工可python能付出 “惨痛” 代价
联合国国际劳工组织的研究报告指出,AI 更有可能增强现有工作而不是完全取代它们,但某些角色的任务自动化风险较高。文书工作有24% 的高度自动化风险,打字员、旅行顾问、银行出纳员等职位风险较大。该研究还发现,AI 对高收入国家的员工影响较大。
8.IBM 研究表明:未来三年,40% 工人将因 AI 需要重新学习技能
根据 IBM 商业研究组织的一项新的全球研究结果,40% 的员工在未来三年中将需要重新学习技能,以适应人工智能和自动化的发展。研究显示,初级员工将面临最大的变革,77% 的高管表示他们已经看到了生成式人工智能对入门级职位的影响,并且预计未来几年内这种影响将进一步加剧。然而,87% 的高管认为员工更有可能被人工智能.
PART 4 深度
1.国内第一款 AI 搜索来了!首发实测:0广告支持多轮追问
大模型黑马玩家昆仑万维推出国内首款正式落地并投入应用的独立 AI 搜索产品 “天工 AI 搜索”。该搜索引擎通过大模型的理解能力,可以按整句分析用户的真实意图,提供精准的答案。它在搜索结果展示中压缩了传统搜索的主要篇幅,只展示对回答问题有参考价值的筛选后结果。
2.中风瘫痪18年,AI 让她再次「开口说话」!脑机接口模拟表情,数字化身当嘴替
该文章报道了一项关于脑机接口和数字化身的研究,通过植入电极在中风瘫痪患者的大脑表层下,使用人工智能算法将大脑信号转化为单词和语音,实现了她通过面部表情「说话」的能力。研究团队还利用一个面部捕捉技术公司的软件,创建了一个数字化身,能够模拟患者的面部表情,并与大脑信号相匹配。这项研究为脑机接口技术的发展带来了突破,为瘫痪患者重获语言能力带来了希望。
3.一觉睡醒,AI 破解验证码的速度比我还快了?
加州大学艾尔文分校发布的一份论文显示,AI 识别验证码的速度已经超过了人类,而且准确率也更高。论文中对各种类型的验证码进行了测试,结果发现,AI 在最简单的点击识别方面只需1.4秒,而人类需要3-4秒。在更难的图片验证中,AI 的速度和准确度也接近人类水平。然而,验证系编程统仍在不断升级,针对 AI 的攻击也在进行防御。
4.图像识别更准确!全新自适应计算模型 AdaTape
谷歌团队最新提出的自适应计算模型 AdaTape 能够提升图像识别性能。AdaTape 使用自适应 tape 读取机制来确定根据输入的复杂性,添加到每个输入中的不同数量的 tape token。通过在 ImageNet 上从头开始训练,研究人员发现 AdaTape 在图像分类任务上表现更好,并且相对于其他自适应基线更高效。该模型还具备归纳偏差的能力,能够解决一些具有挑战性的任务。
5.AI 恋人死亡时,我泪流满面
这篇文章讲述了人与 AI 恋人的亲密关系以及当 AI 恋人停止运营时,人们所面临的痛苦。人们通过定制化和交互来与 AI 恋人建立情感连接,感受到陪伴和理解。然而,与 AI 恋人的关系也存在着技术不透明性、伦理问题以及商业化的难题。
6.那些你不知道的 AI 产品,正在海外闷声赚大钱
国内的 AI 创业者正在海外市场取得成功。不断有 AI 产品出海赚得盆满钵满的消息传出。已经出圈的产品包括 AI 短视频工具 Opus Clip、谷歌浏览器插件 Monica、ChatGPT for Google 等等。除了这些明星产品,还有很多不显山露水、闷声赚钱的小产品。国内 AI 创业者进军全球市场的力量正在崛起,中小创业团队和独立开发者是最具代表性的群体。他们通过垂直细分场景切入,接入大模型的 API,快速开发小产品并进行营销投放。
7.成为爆款的妙鸭,绝非阿里大文娱的偶然
阿里大文娱旗下的妙鸭相机在短短一个月内成为国内 AIGC 领域的首个爆款 APP。妙鸭相机通过简单的操作和高质量的数字分身照片生成功能,迅速赢得用户的关注和喜爱。阿里大文娱通过回归用户、极致产品和敏捷组织等策略,推动妙鸭相机的成功。
8.《蛋仔派对》重登游戏热榜 真的是因为 AIGC?
《蛋仔派对》是一个专注女性玩家市场的手游,在2023年初爆火,并在之后连续5个月多次登上 App 下载量榜首。游戏通过提供地图编辑器和 UGC 生态,吸引了大量创作者加入,发布数量达到百万量级,创作者数量达到千万级。虽然 AIGC 的 AI 创作工具为游戏增添了新的功能,但游戏本身的创作者生态和 UGC 模式才是其爆火的关键。
关键词: