发布于: 2026-6-15最后更新: 2026-6-15字数 508阅读时长 2 分钟

type
Post
status
Published
date
Jun 15, 2026
slug
bluedot-ai-safety-certificate
summary
一篇短记:完成 BlueDot Impact AI Safety Fundamentals 并获得结业证书之后,我对 agent safety evals、tool-use safety 和可靠 AI 基础设施方向更确定了。
tags
人工智能
AI安全
思考
推荐
category
心情随笔
icon
password
synced
paired_with
3801d487-a2a1-81d8-9d67-c47787e1661b
source_hash
translation_locked
💭
我最近完成了 BlueDot Impact 的 AI Safety Fundamentals 课程,并获得了结业证书。这不算一个很大的终点,但它帮我完成了一个更重要的转向:从单纯做有用的 AI 应用,转向思考这些系统会怎么失败、怎么评测,以及工具调用型智能体在真正被人依赖之前应该怎么变得更安全。

我从课程里带走了什么

BlueDot 给了我第一张比较系统的 AI safety 地图。在这之前,我已经做过 RAG 和全栈 AI 项目,但我还没有一套清晰的语言去描述那些反复出现的问题:错误检索、权限缺失、对流畅回答的过度信任、评测薄弱,以及部署边界不清楚。
这门课帮我把这些问题和更大的安全议题连起来:specification、evaluation、deployment risk、AI control、interpretability 和 scalable oversight。上完之后,我对“做 AI 应用”这件事的兴趣没有消失,但关注点变了:我更想做可靠的 AI 基础设施。

接下来想往哪里走

我现在最想继续推进的方向,是面向工具调用型系统的 agent safety evals。我正在做的 daily-admin-agent-security-eval 是一个小型、兼容 AgentDojo 的日常行政类智能体评测套件,用来测试智能体能不能在完成有用任务的同时,把检索到的应用内容当作不可信数据处理。
这个方向对我来说很合适:足够具体,可以真正做出来;又和 AI safety 有直接关系;同时也接得上我已经会做的系统工程和全栈 AI 项目。

写在最后

完成 BlueDot 不是终点,更像是一个标记:我的方向变得更清楚了。接下来我会更多关注 agent evals、prompt injection、tool-use safety、access control,以及那些会进入真实工作流的 AI 系统的可靠性。
证书本身不是最重要的。真正重要的是看问题的方式变了:我不只想做 demo 里能跑的 AI 系统,也想理解它们在真实、混乱、带权限、甚至带攻击性的环境里会怎么失败。

参考


Loading...
网络爬虫入门:合规、工具与反爬经验

网络爬虫入门:合规、工具与反爬经验

从 robots.txt 和数据使用边界说起,按 requests、aiohttp、Scrapy、Playwright 梳理爬虫工具选择,再补上反爬、解析和数据质量的实战经验。


Statsify Finance 技术解析

💹Statsify Finance 技术解析

Statsify Finance 是一个金融分析工具网站。这篇介绍它的产品结构、分析/策略/词典页面,以及 Next.js、Tailwind、MongoDB、ECharts 等技术选型。


公告
网站持续更新中…