Meta-Harness：AI智能体“自我进化”新路径，小模型性能跃升新高度-宏观经济-数据世界

当AI智能体不再依赖人工调试参数和修复漏洞，而是能够自主完成这些任务时，人工智能的发展将迎来怎样的变革？斯坦福大学IRIS实验室与麻省理工学院、威斯康星大学的研究团队近期联合发布了一项突破性成果，通过开发名为meta-Harness的自动化框架，让AI智能体实现了对自身运行环境的自主优化。这一研究不仅颠覆了传统模型优化的路径，更在多个基准测试中展现出超越人类工程师的潜力。

传统AI开发中，模型性能的提升往往聚焦于扩大参数量、增加训练数据或优化强化学习策略。然而，新研究指出，支撑模型运行的"基础设施层"——包括系统提示词、工具调用逻辑、错误处理机制等——同样对最终效果起着决定性作用。实验数据显示，仅通过调整输入格式和执行流程，15个大型语言模型的编码能力可提升5-14个百分点，输出token减少约20%。更令人震惊的是，GPT-4 Turbo在更换执行框架后，准确率从26%飙升至59%，而模型本身并未发生任何改变。

meta-Harness的核心创新在于构建了一个完整的自动化优化闭环。该系统通过为优化器提供包含所有历史执行记录的"文件系统"，使其能够自主检索代码变更、错误日志、性能评分等关键信息。与传统方法仅能观察压缩后的摘要信息不同，这一框架最高可处理1000万token的上下文数据，相当于主流方法的400倍。优化器不再是被动的信息接收者，而是能够主动分析执行轨迹、定位深层错误，并针对性地重写代码的智能代理。

在代码生成领域，该框架展现了惊人的优化能力。针对包含89个复杂任务的TerminalBench-2基准测试，优化后的Claude Haiku 4.5模型以37.6%的通过率登顶所有轻量级模型榜首，甚至超越了参数规模更大的Goose模型。更值得注意的是，优化过程完全基于具体任务的执行反馈，例如在第7轮迭代中，系统通过在初始提示中注入环境依赖信息，就使任务成功率提升了18个百分点。这种基于完整执行轨迹的"反事实诊断"能力，使得优化效率比传统方法提升了数十倍。

该框架的适用性远不止于代码领域。在文本分类任务中，优化后的系统在LawBench、Symptom2Disease等三个数据集上实现了48.6%的准确率，较此前最优方法提升7.7个百分点，且消耗的上下文token减少了77%。数学推理测试中，优化后的检索策略使5个不同模型在IMO级别难题上的平均得分提升4.7个百分点，展现出强大的跨模型迁移能力。这些成果证明，通过优化运行环境，小规模模型完全可能达到甚至超越大型模型的性能表现。

研究团队指出，当前AI开发中，工程师仍需手动编写提示词、调试工具接口、设计错误处理流程，这个过程不仅耗时费力，且很多深层问题难以通过人工诊断发现。meta-Harness通过将优化过程自动化，不仅解放了人力资源，更开辟了新的性能提升维度。随着AI系统复杂度的不断增加，这种能够自主进化的"基础设施层"优化方法，或将重新定义人工智能的发展路径。

PChome 4月2日消息，红魔游戏手机产品总经理姜超今日发文表示，面对本轮存储芯片价格暴涨引发的行业涨价潮，红魔正全力硬扛成本压力，旗下老款机型目前维持原价未涨价。但红魔正通过优化供应链、严控成本等方式缓解…

2、华为Mate 80成为国产旗舰销量最好的，同时也是国产单品销量最好的机型，这足以证明华为Mate 80目前在国内有多热销；从W12周的品牌排名到单品销量排名，大家都可以发现一个规律——涨价的机型基本上…

在铺天盖地的投诉与媒体起底之下，这家打着“保险科技”旗号的公司，其隐藏在“首月0.6元”广告背后的收割链条，正赤裸裸地暴露在公众面前。对于元宝保险及相关支付通道而言，若不能证明其扣款流程已获得用户的“明确…

来源 | 中国基金报 4月2日，优必选科技发布消息称，公司正面向全球招募具身智能首席科学家，年薪1500万元起步，最高可达1.24亿元。值得注意的是，这一薪资远超特斯拉、波士顿动力、腾讯、小米等公司同级别…

2026 年 4 月 3 日，雷军发布小米 SU7深度评测报告，全面拆解新车升级点、续航实测、安全性能、智能体验，用真实数据展现产品实力，打消用户疑虑，让消费者清晰了解 SU7到底值不值得买。SU7 采用…

不少合作客户反馈，其生产的取卡针适配性稳定，使用过程中不易出现卡滞或损坏卡槽的情况，大批量供货时交期稳定，能够匹配品牌方的量产节奏，一站式采购多品类五金配件的服务也大幅降低了对接成本。作为拥有20余年行业经验…

【CNMO科技新闻】据外媒报道称，目前新款AppleTV的硬件开发已基本完工，产品推迟发布的瓶颈主要源自软件研发进度。相关爆料指出，苹果计划让这款设备首发搭载支持AppleIntelligence的全新Sir…

在谷歌迄今为止所有的模型中，Gemma 4是目前最强大的开放权重模型系列，继承了前沿多模态、长上下文和高级推理能力，被谷歌官方称之为是“在逐字节比较下性能最强的”开放模型（Bytefor byte, th…

此次招聘的具身智能首席科学家不设国籍、年龄与性别限制，其定位为“优必选技术战略掌舵人与行业破局者”，核心职责是定义公司在人形机器人与具身智能领域的技术路线图，主导视觉-语言-动作模型、机器人基础模型、操作与…

App Store 也不例外，苹果的审核团队在某个时间点检查了你的应用，确认它安全、合规、功能符合规定，然后放行。今年初，外媒 TheInformation 报道了苹果对一批 Vibe Coding 应…

Arm云与AI业务部执行副总裁阐述了合作的战略意义：“随着企业扩展 AI应用并推进基础设施现代化，Arm软件生态系统的广度使得这些工作负载能够在更广泛的环境中运行。双方合作将会主要集中在三个领域：分别是…

当下春耕春管正酣，各地加大农机投入、强化科技保障，助力农业生产。贵州石阡的羊肚菌迎来采收黄金期，江苏启东的“海上菜园”紫菜喜获丰收，展现多元农业发展态势。智能筛分上料供种一体机高效作业，密室集中催芽提升质量…