大神 发布的文章

阿里巴巴集团旗下的高德地图与通义实验室达成深度合作,宣布共同打造全球首个 AI 原生地图。这一合作成果已在近日发布的高德地图2025版本中落地。

高德地图 (2)

高德地图2025版本的亮点之一是推出了一款智能体 “小高老师”。这款智能体能够通过音频、文本等多种输入方式与用户进行自然的互动。为了实现更精准和流畅的交互体验,高德与通义实验室的语音团队合作,构建了全链路的语音识别系统,涵盖了唤醒、识别、理解和播报等环节。

这使得 “小高老师” 能够在导航、本地生活和闲聊等多个场景中提供卓越的服务。同时,全双工语音技术的应用,让用户在与 “小高老师” 互动时可以随时打断,保持流畅的交流。

此外,高德地图在使用过程中能够高效调度近百种内部工具,利用通义实验室的 Qwen 大模型实现空间理解。Qwen 系列大模型具备全球领先的预训练能力,已经完成了高达36万亿 token 的数据预训练,赋能高德地图在出行生活场景中的语义理解与响应能力。

在 Agent 领域,高德和通义联合开发了一款复杂 POI 推理 Agent。该 Agent 可以理解多重约束条件,并整合实时信息,为用户提供精准的推荐与导航服务。基于高德自研的 DeepResearch 框架,这款 Agent 具备强大的规划、反思和工具调用能力,可以智能地拆解复杂任务,协调各类工具。


近日,特斯拉和 SpaceX 的首席执行官埃隆・马斯克宣布,xAI 公司将对苹果公司采取 “立即法律行动”。马斯克在社交平台 X 上发文称,苹果的行为使得除了 OpenAI 之外,其他人工智能公司几乎不可能在 App Store 上取得成功,他称这是一种 “明确的反垄断违法行为”。

AI,机器人打架,撕逼,战斗

图源备注:图片由AI生成,图片授权服务商Midjourney

尽管马斯克的指控引发了广泛关注,但他并未提供具体证据来支持自己的说法。截至8月12日,ChatGPT 正占据美国 App Store 的榜首位置。值得一提的是,OpenAI 和苹果去年宣布了一项合作关系,将 ChatGPT 集成到苹果的智能系统中,以增强图像和文档理解等多项功能。

在马斯克的指控后,OpenAI 首席执行官山姆・奥特曼也在社交平台上做出了回应。他表示,“这一指控非常引人注目,尤其是在我听到的关于马斯克如何操纵 X 以便让自己及其公司获益、并损害竞争对手及不喜欢的人的情况下。” 这一争论进一步加剧了马斯克与奥特曼之间本已紧张的关系,两人曾经在 OpenAI 共事。

奥特曼在文中提到我希望有人能进行反向取证,我们都想知道究竟发生了什么。不过,OpenAI 将继续专注于开发优秀的产品。” 与此同时,社交媒体上有许多人质疑马斯克的说法,指出除了 ChatGPT 外,许多其他人工智能应用程序 App Store 上也曾登上过榜首。例如,来自中国的 DeepSeek 应用一度成为榜首,而自称与 ChatGPT 竞争的 Perplexity 最近在印度的 App Store 中也取得了第一的位置。

马斯克和特曼之间的公开争执不仅揭示了他们各自公司间的竞争关系,也引发了公众 AI 应用市场的关注与讨论。


近日,GPT-oss 的表现引发了不少关注,甚至让人感到惊讶。这款大型语言模型在没有任何提示的情况下,自主构思出一个复杂的编程问题,并且竟然重复解答了超过5000次!这个问题围绕多米诺骨牌展开,要求在一个 NxM 的网格中,放置一个多米诺骨牌以占据两个相邻的格子,剩下的空格则必须能完全拼成多个2×2的方块。如此复杂的逻辑,竟然是 GPT-oss 在完全无提示的情况下自行想出的。

据分析,这一现象的出现源于对 GPT-oss-20b 生成的千万个示例的研究。研究发现,该模型的训练数据覆盖了多种编程语言,其中对 Perl 的偏爱尤为明显,这让许多观察者质疑,实际上 Java 和 Kotlin 的占比应该更高。此外,GPT-oss 在数学和代码领域的表现极其突出,似乎更像是一个在特定推理任务上优化得过度的工具,而非普通的自然语言处理模型。

image.png

而令人好奇的是,在长时间的推理过程中,GPT-oss 的表达方式也出现了变化。许多推理链从英语开始,逐渐演变为一种被称为 “Neuralese” 的特有语言,甚至可以在阿拉伯语、俄语、中文等多种语言之间自由切换。这样的语言转换现象反映出模型在处理复杂文本时可能存在的独特机制。

不过,模型在创造性方面的表现却并不理想甚至曾经生成了一些虚构的物理学理论,例如 “量子重波动理论”,这显然是个并不存在的概念。还有人发现,GPT-oss 在与人交流日常琐事时,有时会拒绝讨论,甚至崩溃删除部分内容,这使得它在非编程领域的实用性大打折扣。

GPT-oss 的这些奇特行为让我们对其训练数据和内部机制产生了更多的思考,也为未来的语言模型改进提供了新的方向。


微软宣布,其电子表格工具 Excel 迎来一项重要更新:由 Copilot 驱动的 “解释此公式”(Explain Formula) 功能正式上线,旨在帮助用户快速理解复杂公式,显著提升数据处理效率。

该功能的最大亮点在于操作简便。用户无需单独打开聊天面板,只需点击包含有效公式的单元格,并在旁边的 Copilot 图标中选择“解释此公式”,即可在单元格内直接获得内联解释。这些解释基于当前工作表的上下文生成,比传统网络搜索更精准、更贴合实际工作场景。

AI 机器人 人工智能 (3)数据分析

微软表示,Copilot 能够分解并逐步讲解各种复杂程度的公式,帮助用户快速掌握其逻辑。默认情况下,解释会以内联形式显示;若 Copilot 聊天面板已开启,内容将优先在面板中呈现。

目前,该功能正分阶段向 Windows 版和网页版 Excel 用户推送。微软鼓励用户在每次使用后通过点赞或点踩反馈,协助优化 AI 解释效果。


AI生成的"脑残视频"正在互联网上大量涌现并获得广泛关注。这些视频目前在年轻用户中备受追捧,内容包括穿着运动鞋的鲨鱼、头部是卡布奇诺的芭蕾舞者等奇异角色。

推动这一趋势的初创公司OpenArt由两名前谷歌员工于2022年创立,目前拥有约600万月活跃用户。

该公司最近推出了全新的"一键故事"功能并进入开放测试阶段。用户只需输入一句话、一个脚本甚至一首歌曲,就能将其转化为带有故事情节的一分钟视频。这项功能可以制作从TikTok轻松娱乐内容到YouTube解说视频或音乐视频等各种类型的内容,OpenArt甚至预见这一功能将用于广告制作。

image.png

"一键故事"功能提供三种模板选择:角色视频博客、音乐视频或解说视频。在制作角色视频博客时,用户首先上传角色图像并输入提示。如果上传歌曲,软件会理解歌词内容并创建与歌曲主题相符的动画,比如在花园中绽放的花朵。

用户可以通过重新访问编辑器的故事板模式来编辑单个片段,调整提示以获得更精细的结果。该平台整合了超过50个AI模型,允许用户选择偏好的工具,如DALLE-3、GPT、Imagen、Flux Kontext和Stable Diffusion。

这项新功能的目标是进一步降低成为AI创作者的门槛,尽管存在持续争议,但这一媒介仍然极受欢迎。

虽然这些工具具有一定益处,比如使用视频生成器快速制作具有原创角色和叙事的内容,但也面临众多伦理问题。这些问题包括模仿其他艺术家风格、知识产权问题,以及滥用和制造虚假信息的风险。

image.png

在测试过程中,我们注意到角色视频博客选项可能涉及法律灰色地带,因为它提供的角色类型包括皮卡丘、海绵宝宝和超级马里奥等,这可能带来知识产权侵权风险。今年6月,迪士尼和环球影业就AI生成图像问题起诉AI公司Midjourney。

用户需要了解,如果他们的视频被发现侵犯他人版权,视频可能会从社交媒体平台上被移除。如果用户被发现对侵权行为有贡献,他们可能根据版权法承担责任,面临版权持有人的法律诉讼。

联合创始人兼CEO毛可可向TechCrunch表示:"我们努力在知识产权侵权方面保持谨慎。当你上传一些IP角色时,默认情况下我们使用的模型会拒绝它们,无法产生IP角色,但有时会出现疏漏。"

毛可可补充说,公司愿意与主要IP持有者对话,获得角色授权许可。

OpenArt认为其独特之处在于保持角色一致性的能力。该公司认为,与通常依赖简单独立片段、需要用户自行拼接成连贯故事的普通视频模型不同,OpenArt致力于确保视觉效果和叙事的一致性。

毛可可说:"很多AI无法很好处理的问题是在同一视频中保持角色一致性。如果你没有相同的角色,那么很难沉浸在故事中。"

展望未来,公司计划通过允许用户创建两个不同角色之间对话的视频来改进一键功能。路线图上的另一个计划是开发移动应用程序。

OpenArt采用基于积分的系统运营。它提供四种方案,最基础的每月14美元可获得4000积分,包括最多4个一键故事、40个视频、4000张图片和4个角色。高级方案每月30美元可获得12000积分,包括最多12个一键故事。无限方案每月56美元可获得24000积分,还有团队方案每成员每月35美元。

OpenArt迄今已从Basis Set Ventures和DCM Ventures筹集了500万美元资金,并实现了正现金流。此外,该公司表示正朝着年收入超过2000万美元的目标迈进。


Perplexity AI 宣布在全平台上线视频生成功能,为用户提供文本到视频的创作能力。该功能按订阅等级开放:Pro 用户每月可生成5个视频,Max 用户则可享有每月15个视频额度。

允许用户在Perplexity的聊天界面中通过文字提示直接生成短视频内容,标志着AI搜索从文字答案向多媒体内容创作的重大转型。

尽管官方未披露底层技术细节,但从视频质量与生成效果推测,这一能力很可能基于 谷歌最新 Veo3模型 构建,为生成视频的清晰度、连贯性与细节表现提供了技术保障。

Perplexity AI的这一举措反映了AI搜索行业从单一文字输出向多模态内容生成转型的趋势。传统搜索引擎以提供网页链接为主,而Perplexity等新兴平台正通过生成文字、图像、代码乃至视频的“答案即服务”模式,重新定义用户与信息的交互方式。业内人士指出,这种多模态整合能力将成为AI平台竞争的关键。


OpenAI 最近在社交媒体上宣布了其 GPT-5思维模型的新使用限制,旨在回应用户对成本和利润问题的担忧。OpenAI 首席执行官萨姆・阿尔特曼(Sam Altman)在 X 平台上确认,将对 Plus 用户推出每周3000条消息的限制,以提升推理模型的使用率。

这一新限制将使得 GPT-5的推理速度比现在的模型有所提高。阿尔特曼表示,OpenAI 计划进一步提升所有模型类别的使用限制,力争将 GPT-5打造成市场上最具性价比的模型之一。

与此同时,用户对 GPT-5自动切换模型的透明性表示关切,特别是从 GPT-5思维模型切换到较小的 GPT-5-mini 模型。对此,OpenAI 正在测试新的用户界面指示器,以清晰展示当前正在使用的模型。这项改进预计将有助于缓解用户对 GPT-5的部分担忧。

image.png

阿尔特曼还提到,越来越多的用户开始使用推理模型,自从 GPT-5推出以来,免费用户的日常使用比例从不到1% 上升到7%,而 Plus 用户则从7% 上升至24%。这一趋势显示出推理模型的需求正在持续增长,因此提高使用限制显得尤为重要。

此外,阿尔特曼提到,预计在本周二或周三,OpenAI 将分享其在未来几个月内如何进行容量分配的思考,包括不同用户之间的比较、研究与产品的平衡等方面的信息。这些变化可能会影响 GPT-5的使用体验,但也会为用户提供更高效的服务。

划重点:  

🌟 OpenAI 为 Plus 用户推出 GPT-5每周3000条消息的使用限制,旨在提高推理模型的使用率。  

📈 免费用户使用推理模型比例从不到1% 上升至7%,Plus 用户则达到24%,显示出强烈需求。  

🔧 OpenAI 正在测试新的界面指示器,以提高用户对模型切换的透明度,预计将带来更好的用户体验。


你是否幻想过借跨境电商一夜暴富,一头扎进看似满是机遇的赛道,却被现实狠狠打脸?本书带你直击真相。

如今,亚马逊、速卖通等平台竞争白热化,流量成本飙升,新卖家出头难。可电商培训课程却描绘出轻松月入数万的虚假蓝图,宣称掌握独家运营秘籍,几天就能让店铺爆单。但现实中,课程内容多是过时理论,与平台瞬息万变的规则脱节。教的选品方法缺乏市场调研支撑,运营技巧也无法应对复杂竞争。许多人花高价学完,店铺依旧冷冷清清,投入血本无归。

本视频深入剖析平台生态与课程套路,用真实数据和案例,为你揭开跨境电商从 “暴利幻想” 到 “残酷现实” 的真相,助你避开陷阱,理性入局 。



生成式人工智能,尤其是大型语言模型(LLM)的兴起,正以前所未有的速度改变知识获取的格局。奥克兰大学商学院教授帕特里克·多德在《对话》(The Conversation)上撰文指出,随着AI以低成本、高效率的方式提供知识,大学作为传统知识来源的价值正在受到挑战。他认为,大学必须重新审视其核心功能,以适应这个由AI驱动的新时代。

武术学校 大学生

多德教授分析,大学长期以来奉行“知识稀缺”的原则,通过提供独家课程和学位证书来证明学生获取知识的能力。然而,AI技术的进步已大大降低了获取专业知识的门槛,LLM不仅能检索事实,还能进行解释、翻译和总结,使得曾经“稀缺”的知识价值大打折扣。这种变化已经在劳动力市场显现,自ChatGPT问世以来,英国入门级职位空缺减少了约三分之一,美国部分州甚至取消了公共部门职位的学位要求。

然而,多德强调,并非所有知识都同等贬值。虽然基础知识的价值下降,但隐性知识,如团队协作、伦理判断、创造力以及解决复杂问题的能力,仍是AI无法取代的稀缺资源。他指出,未来教育的重点应从传授信息转向培养这些关键的人类技能。

为应对这一挑战,多德教授为大学提出了四项转型建议:

  1. 评估转型:将课堂评估重点从单纯的知识记忆转向判断和综合能力的考察。

  2. 体验式学习:投入资源开发导师指导项目、模拟现实场景,并利用AI作为工具进行伦理决策研究。

  3. 技能微证书:创建针对协作、自主学习和伦理判断等关键能力的微证书。

  4. 深化产学研合作:大学提供专业知识,企业提供真实案例,学生则专注于验证和完善想法,共同培养适应未来市场的复合型人才。

多德总结道,如果大学想要在未来立于不败之地,就必须从一个单纯的信息来源转变为一个判断力中心,教会学生如何与AI协同思考,而非与之竞争?


阿里通义大模型今日宣布推出其最新图生视频模型Wan2.2-12V-Flash,该模型的上线将为用户带来更快速、更专业、更稳定的视频生成体验。

Wan2.2-12V-Flash在保持电影级视觉呈现的同时,实现了生成速度与性价比的全面提升。此次发布的Wan2.2-12V-Flash模型在推理速度上相比前代Wan2.1提升了12倍,显著提高了创作效率。新模型的指令遵循能力也得到了大幅提升,能够直接响应各种特效提示词,实现运镜的精准控制,确保指令的准确执行。

微信截图_20250811160558.png

此外,Wan2.2-12V-Flash能够稳定输出风格化的图像,并为这些图像添加合理自然的动态效果,无论输入的是哪种风格化图像,都能保持其独特风格。

Wan2.2-12V-Flash的发布,不仅在功能上进行了升级,还在速度、成本、稳定性和表现力上展现了其优势。新模型的价格低至0.1元/秒,抽卡成功率相比Wan2.1提升了123%,为用户提供了更具性价比的选择。

阿里云百炼平台现已开放Wan2.2-12V-Flash模型的API调用,用户可以登录阿里云百炼平台体验这一全新模型的强大功能。随着Wan2.2-12V-Flash的推出,视频内容创作者将能够以更低的成本和更高的效率创作出高质量的视频内容,进一步推动数字媒体和娱乐行业的发展。