谷歌与EVE Online合作进行AI测试
谷歌DeepMind在EVE Online测试AI模型
谷歌DeepMind与CCP Games合作,在EVE Online的虚拟宇宙中测试AI模型,此前CCP Games获得1.2亿美元独立融资并更名为Fenris Creations。该合作利用EVE Online的持久在线环境,在复杂、玩家驱动的条件下评估AI行为。测试包括自主代理交互和决策,在一个拥有16年历史的沙盒中进行,注册账户达80万。
EVE Online的生态系统为AI提供了一个独特的实验室,因为它具有玩家经济、领土冲突和涌现系统。游戏的物理引擎和经济模型为AI系统创造了不可预测的挑战。 Fenris Creations的CEO Hilmar Pétursson确认,合作伙伴将重点关注强化学习技术,但拒绝透露具体的技术基准。
AI搜索整合Reddit获取专家建议
谷歌更新了其SGE AI搜索,从Reddit中提取“专家建议”,扩展了现有来源,如维基百科和YouTube。该功能在响应软件开发、硬件故障排除和特定爱好者主题的技术查询时,会显示相关的Reddit帖子。拥有Reddit Premium账户的用户优先访问已验证的内容。
Reddit整合是在与Stack Overflow和专业论坛进行数月测试后进行的。谷歌的算法使用自然语言处理将查询意图映射到子版块领域。早期测试结果显示,与通用网络结果相比,准确的技术答案增加了37%。然而,该系统在上下文敏感话题上存在困难,因为Reddit社区存在冲突信息。
开源工具连接谷歌表格和LLM
名为AISheeter的开源扩展程序现允许用户使用自己的API密钥将任何LLM与谷歌表格集成。该工具支持GPT-5.4、Claude Sonnet 4.5、Gemini 2.5和Groq模型,具有自我纠正公式、渐进式推理披露和会话内存学习等功能。开发人员可以使用自然语言提示自动执行诸如情绪分析、特征提取和紧急优先级等任务。
该扩展程序的架构包括一个评估器-优化器模式,可以在执行前捕获列引用和逻辑参数的错误。性能测试显示,使用pgvector语义搜索的缓存操作延迟为10毫秒。该工具的透明度功能允许用户在最终输出前查看模型的思考过程。虽然该工具在结构化数据任务中表现良好,但复杂的财务建模仍然需要对AI生成的公式进行手动验证。
Phoenix SaaS模板获得关注
基于Phoenix的模块化SaaS启动套件在独立开发人员中获得关注,提供身份验证、支付和AI集成的预构建组件。该模板包括生产就绪的Stripe和LemonSqueezy支付系统、Ecto优化的PostgreSQL查询和实时分析仪表盘。开发人员可以在Fly.io上以不到5分钟的时间部署,并具有自动缩放和Docker支持。
该模板的AI层支持多个提供商,具有容错处理和零镜头提示处理。测试显示,常见SaaS功能的样板代码减少了40%。然而,该框架的Erlang依赖为不熟悉函数式编程的团队创造了学习曲线。早期采用者报告称,在初始设置中节省了大量时间,但表示持续维护需要模板范围之外的自定义。
行业背景和技术限制
DeepMind与EVE的合作反映了AI实验室寻求受控但动态的环境进行训练的更广泛趋势。像育碧和Epic Games这样的游戏公司也与AI研究人员合作,但CCP更名为Fenris Creations标志着向AI基础设施的战略转变。技术挑战在于在测试实验AI系统的同时保持游戏平衡。
当前的AI搜索集成仍然受到平台特定偏差的限制。Reddit的社区驱动内容模型即使具有质量过滤器,也存在错误信息传播的固有风险。 Sheets扩展程序的开源性质允许社区改进,但缺乏企业级安全认证。同时,Phoenix SaaS模板的模块化设计需要开发人员处理组件之间的依赖关系,这可能会引入集成复杂性。
关注点
Fenris Creations计划在2024年第四季度发布EVE Online AI测试的测试结果。谷歌的SGE团队将根据传统搜索结果衡量Reddit集成性能。 AISheeter开发人员旨在在2024年中期增加多模型集成能力。 Phoenix SaaS模板的创建者正在通过其Tidewave MCP运行时分析工具探索Elixir特定的AI优化。