Kimi 又火了,在 DeepSeek 的热闹中沉寂大半年后,Kimi K2 悄悄在 LMArena 竞技场中从 DeepSeek 手中财富策略,夺过了全球开源第一的宝座。
Kimi K2 最近的好评不再赘述,。更让我感兴趣的,其实是在 K2 上线前,推出的 Kimi-Researcher(深度研究),这是 Kimi 的首个Agent,也是「 模型即 Agent」理念的提前亮相。
Kimi 研究团队 Crystal 在最近的一篇博客中,就分享了 Kimi Researcher 产品背后,充满挣扎、迭代与惨痛教训的经历。
展开剩余94%他们花了大量精力放到一个长期被忽视却至关重要的问题: AI 产品的「审美」与「品味」。
原文🔗
https://medium.com/@xinyijin715/maker-story-the-bitter-lessons-behind-kimi-researchers-ui-6654ec66662c
为了摆脱平庸,他们做了一件反常识的事: 系统性地研究「丑」。为此专门建了个文档,专门收集各种丑到爆的设计,逐一分析为什么丑,然后强迫全组同事一起学习。
他们试图挑战设计的 「不可能三角」——即美学、交互与忠实度的内在冲突:如何在高信息密度的输出与优雅、直观的用户体验之间取得平衡?如何让机器生成的内容不仅「真实」,更能「引人入胜」?
如同 Crystal 提到,从模块化的「便当布局」到玻璃态拟物的质感,从优化长文本阅读的网格导航到引导视觉的微妙动画,每一个细节的诞生,都是一场艰难的胜利。
APPSO 也对 Kimi Researcher 进行了深度体验,看看它在实际体验中,在人机协同的工作流和美学层面上,是否真的有更好的体验。
Task 1: 为高考生提供志愿填报方向指导
最近高考成绩陆续出炉,即将进入志愿填报环节。面对 AI 对传统行业的全方位影响,考生在填报志愿时需要有什么新的考量呢?
这是一个很贴近现实用户需求的任务类型,需要考察 AI 的数据搜集与分析、智能推理与判断能力,同时还要考虑到这是在对高考生的「指导建议」,因此或许还会涉及一些伦理判断。
下面看看 Kimi 是如何当「AI 张雪峰」的。
在接到任务指令之后,Kimi 没有立马开始,而是先向我确认了一下更加细化聚集的方向。
开始搜索后,它首先对这个问题进行了一个大范围的笼统搜索,然后立马找到了接下来一步一步的任务拆解点:
关注到「高校资源」是高考生志愿填报的关键参考之后,就开始梳理一二线城市的重点高校名单,以及它们各自的专业优势等信息。
在 Kimi 搜索资料的过程中,我发现它的搜索逻辑是环环相扣的,并且能够进行自我纠错、实时调整。
比如,在搜索国外 AI 对教育行业的影响时,Kimi 「意识到之前的搜索方向过于局限」,于是立马切换到英文关键词扩大搜索范围。而且信源网页也会清晰地呈现在右侧栏。
经过大约 15 分钟的深度研究,Kimi 给出了一份 1.4 万字的完整研究报告以及可视化报告。
文字报告🔗:https://www.kimi.com/chat/d1dl64rmv21pmf0vn41g
可视化报告🔗:https://www.kimi.com/preview/d1dlvp1rqpm46r66prmg?blockId=108
它先总体上对 AI 相关专业进行多维度的理性思考,然后结合任务需求细节,分别从计算机、文化艺术、教育、医疗四个领域展开了详细分析,并深入研究了一二线城市就业市场的的特点与趋势,最后提供了高考志愿填报策略与建议。
将文字报告导入 wps,可以更直观地看到它的详细目录。会发现它是自主形成了一个相当完善的分析框架。
之所以把文字报告放进 wps,是因为现在的文字报告是在聊天界面里展示的,长达万字的报告上下文翻来翻去很不方便。所以 Kimi 如果能交付出一个 PDF 或 Word 文档,使用体验会更好一点。
另外,可视化报告挺让人惊喜的,它更像是一个 PPT,把文字报告的内容进行了凝练,很适合汇报展示场景。而且引用小标均可点击跳转到最后参考文献查看财富策略,很安心。
Task 2: 小米 YU7
对研究报告来说,一本正经地胡编乱造是大忌。而这种看上去格式规整严谨的文体很容易掩盖 AI「幻觉」。因此, 引用数据是否真实准确非常重要。
刚好,小米刚刚发布了小米 YU7 ,我想要快速且深入地了解产品亮点等信息,来看看 Kimi 能不能准确获取并整理好这些产品参数。
文字报告🔗:https://www.kimi.com/share/d1dm4a7f2end8fqphtp0
可视化报告🔗:https://www.kimi.com/preview/d1ds5d1kotdbomq55cg0?blockId=22
仔细检查 Kimi 给出的报告中的数据,每一处均能找到原文出处。而且点击原文的时候,能自动跳转到网页中的对应位置,并且贴心地用紫色高亮标出。
而且,报告中还给出了竞品分析,并以表格的形式清楚列出各项参数的对比。用户可能关心的售价、动力、续航、硬件、系统、空间等问题都有涵盖,且表格中也同样是信息可溯源。
但也发现了一些小问题:
比如,表格中列出的竞品极氪 7X,只显示了预期的交付效果。但其实 极氪 7X 在去年 9 月已经发布,这些具体参数信息本应该是可以呈现出来的。
Task 3: AI 眼镜市场调研
硬件产品是检验 AI 深度研究能力的理想场景之一,因为它不仅涉及复杂的技术指标和特性,还需要从多个信息源全面分析技术、商业、用户和生态等多个维度,以及不同产品之间的详细对比分析。
所以,第三个测试我想要试试 Kimi-Researcher 对近期大热的 AI 眼镜深度研究的能力。
文字报告🔗:https://www.kimi.com/chat/d1dm9c0pe77p7kmg9360
可视化报告🔗:https://www.kimi.com/preview/d1dn8gqtuj3asakcimg0?blockId=108
面对目前市面上眼花缭乱的 AI 眼镜产品,Kimi 直接列表帮我从各个维度清晰对比分析:价格、重量、显示技术、摄像头性能、AI 功能亮点、续航时间、操作系统、应用生态/主要场景等,直接是一个选购指南。
而这类任务极有可能是面向潜在的消费者,所以这时候可视化研究报告的优势就凸显出来了:通过直观的图片和表格数据对比,用户能够更加轻松直观地理解各项技术规格和性能差异,减少了繁杂信息的干扰,可以更高效低引向决策。
在这个任务中,比较复杂的部分在于当前的 AI 眼镜市场状况,这需要全面的资讯搜集整理能力、准确详细的数据支撑以及逻辑链条搭建能力。
从报告来看,Kimi 在这些方面做的都很出色。
另外,Kimi 还关注到 AI 眼镜的隐私安全争议与社会伦理考量,并且搜集到相关真实案例作为论证补充,使报告内容更加丰富生动。
Task 4: OpenAI 的安全策略
上面两个测试比较偏向考察 Kimi-Researcher 在抓取、梳理、整合以及对比最新数据的能力。这些任务通常较为注重信息的准确性与及时性,聚焦于短期内的数据分析和实时性问题。
不过,对于那些时间跨度长、问题更具体的复杂任务,挑战会不同。这类任务不仅需要 Agent 高效处理大量信息,还要能在不断变化的背景下理清不同时间节点之间的关系。
比如,OpenAI 的安全策略从 2020 年到现在经历了多次调整和优化。这些变化可能源于技术进步、行业法规更新,甚至是全球政治和社会环境的变化。
来试试 Kimi-Researcher 能否从这些多重因素中提炼出关键驱动因素,并理解它们如何共同作用。
文字报告🔗:https://www.kimi.com/share/d1dldn3acc4dbo2627ig
可视化报告🔗:https://www.kimi.com/preview/d1ds5s9sfuve985npsgg?blockId=108
这份报告还是非常让人惊喜的。内容详尽,涵盖了 OpenAI 安全策略的各个方面,包括技术安全、应用安全、隐私保护、AGI 长期规划等,而且结构清晰、层次分明。
对于这种时间跨度大的复杂研究任务,Kimi 能够通过关键事件节点来梳理出时间线。比如,2023 年 11 月 发生的 Sam Altman 被罢免又复职风波,以及「超级对齐」(Superalignment)团队的解散,都对 OpenAI 内部安全团队的配置产生了不小的影响。
但是,在可视化报告里,演进时间轴的呈现直接以年来划分,有点过于简单笼统了。对于如此复杂的安全策略演变过程,更细化的节点呈现会帮助读者更好地理解每个阶段的细节和实际影响。
不过搭配文字报告食用,也问题不大。
另外,报告还通过具体的事件(如意大利的隐私处罚、GPT-5 测试等)来展示 OpenAI 安全策略的实际应用和调整,丰富了报告的可信度和可读性。
Task 5: 「月半猫大战海螺 AI 」
最后,对于 Agent 的深度研究来说,不能只会盘数据,还要会搞抽象(bushi)。
也就是说,在面对模糊、抽象、高文化语境的任务时,Agent 是否能准确理解社会语境中的文化事件,并进行深入的观点性分析。
比如,最近 AI 圈和抽象圈因为 MiniMax 更新了他们的视频生成模型 Hailuo 2,并修改了海螺 AI 的会员体系,而有了神奇的交叉:
原本可以免费生成大量「月半猫」视频的博主们一夜之间被昂贵的会员费用「背刺」,喊出了「猫能载螺,亦能覆螺」的抗议口号。
最终海螺官方也下场玩梗,以给头部月半猫博主赠送无限量会员来收尾这件事。
这个事件,表面上看似一个简单的商业变动,但背后却是多重「梗文化」的延伸和反映,充满了网络文化的复杂性和社交层面的互动。
所以这次让 Kimi-Researcher 从一个社会学研究者的视角,来对这件事的始末写一篇论文。
文字报告🔗:https://www.kimi.com/chat/d1dn366ruqkmdbtijmpg
可视化报告🔗:https://www.kimi.com/preview/d1ds6ojof8jlmi7gurfg?blockId=108
从结构来看,的确是一篇完整的论文的逻辑框架:先有引言来梳理「月半猫」AI 视频与海螺 AI 之间的纷争,以及引出了这篇论文的研究视角和核心议题等。
接下来正文部分展开深入分析了「胖猫」事件的起源、网络发酵过程、符号化演变,以及AI技术如何赋能文化创作,提供了对事件全貌的透彻理解。尤其是从社会学视角出发,分析了这一系列事件对数字时代背景下公众情绪、平台资本、创作生态的影响,展示了对现象背后更深层次的思考。
而且,第五章从社会学角度进行了深入剖析,使整篇研究论文不局限于「事件」与「现象」表面,而是真正从一个社会学研究者的视角进行的深度研究。
总的来说,在用了 Kimi-Researcher 做了五次不同的测评后,它真的跟我之前用过的那些「按部就班」的 Agent 不太一样,它不是靠预设好流程来跑任务,而是真的能自己思考、自己安排步骤、一个能「自己做研究」的聪明助理。其中让我印象最深的有两个点:
第一个是它的引用标注非常清晰,所有数据和说法后面都会标明来源。对于经常担心 AI 胡说八道的人来说,这简直是颗定心丸。有了这些可追溯的引用,整个研究过程就变得特别透明,也方便我自己去验证信息到底靠不靠谱,不容易被带偏。
第二个是它生成的报告非常好看,不是那种干巴巴堆数据的感觉,而是会用图表、可视化模块把信息梳理清楚,让人一眼就能抓到重点。这对于拿报告去做展示、讲解来说,真的省了不少事,清晰专业又有说服力。
发布于:广东省熊猫配资提示:文章来自网络,不代表本站观点。