我花了将近两年时间,做的却不是构建 AI。而是在清洗数据。

当时,我们正在扩展 Track & Trace 平台。我原以为最艰巨的工作会在 AI 层面:模型、算法和优化。结果并非如此。约 80% 的精力都投入到一项远没有那么光鲜、却至关重要的工作上:夯实数据基础。清理错误数据。消除数据不一致。捕捉那些原本根本没有被记录的运营信号。

这项工作并不令人兴奋。但它必不可少。因为在构建智能之前,必须先让数据具备支撑智能的价值。 

如今,这一经验正在各行各业不断得到印证。整个行业正逐渐形成共识:大多数 AI 项目之所以失败,并不是因为模型不够强,而是因为支撑模型的底层数据不够可靠。近期研究用一组数据揭示了这一问题的严重性。在供应链领域,高达 95% 的生成式 AI 计划未能实现持续的投资回报。问题不在模型。而在于数据割裂、系统孤岛以及依赖人工的工作流程。 

失败的不是 AI。而是数据治理。

 

模型无法弥补的问题

人们往往认为,更好的模型可以弥补数据的不完善。但现实恰恰相反。即便输入的信息不完整或不准确,AI 系统也很擅长生成听起来十分笃定的答案。

在供应链场景中,这不只是技术问题,更是运营风险。

在大多数环境中,数据并不能顺畅、清晰地流转。数据往往分散在彼此孤立的系统中:一端是仓库管理系统,另一端是标签平台,而 ERP 更新又滞后于真实业务事件。如果在这样的基础上叠加 AI,带来的不是更清晰的洞察,而是被成倍放大的不确定性。

而在规模化应用中,一个错误答案造成的损害,往往比没有答案更大。真正取得成效的组织,都是那些重新调整顺序的组织。他们并不是从 AI 入手。他们首先解决的是数据如何生成、如何采集,以及如何连接的问题。

 

真实数据的来源

在供应链中,有一个高质量数据来源常常被忽视,但它几乎无处不在:标签。每一次标签的打印或扫描,都会记录下有价值的信息。身份,位置,流转,状态。这些并不是抽象的数据点,而是运营事实:它们随着产品经过制造、分销和履约等环节被实时记录下来。

随着时间推移,这些事件会形成连续的单品级历史记录。这才是真正的数字孪生:它不是一条静态记录,也不是供应商提供的一纸声明,而是一条动态时间线,呈现每个环节实际发生了什么。它是在成千上万个细小而一致的数据采集时刻中,逐步构建起来的。

这绝非一朝一夕可以完成。随着时间积累,它会沉淀为持久优势,成为竞争对手难以复制的数据资产。

与此同时,外部压力也在不断上升。GS1 Sunrise 2027、FDA 可追溯性规则以及欧盟数字产品护照等监管要求,正推动企业更加严肃地对待数据完整性。这些时间节点已不再只是理论设想。

但合规只是倒逼改变的外部驱动力。真正的价值,在于数据一旦变得可信之后,能够释放出怎样的能力。

 

从洁净数据到实际成效

当数据基础足够稳固,应用场景才会真正落地。你可以在干扰波及整个网络之前,及早发现异常。你可以识别出静态报告中无法显现的供应商绩效规律。你可以从被动式库存管理,转向预测性库存布局。

即使是细微改进,也意义重大。仅缺货一项,就会让许多企业每年损失约 4% 至 7% 的收入。这并不是建模问题。这是一个根植于数据质量的可视性问题。而这也正是行业讨论正在迈向的方向。

智能体 AI 正迅速成为下一个前沿方向。这类系统由多个协同运行的智能体组成,可横跨边缘环境和云环境执行任务。但这类系统对洁净、一致的数据输入有着更高依赖。它们不只是分析数据,还会基于数据采取行动。这也让风险和要求进一步升级。

 

一个值得追问的问题

企业在投资 AI 之前,不妨先停下来,思考一个简单的问题:如果今天把你现有的运营数据输入模型,你会信任它给出的结果吗?如果答案是否定的,这并不意味着失败。这恰恰是起点。

因为那些真正从 AI 中获得价值的企业,并没有等待更好的模型出现。它们更早完成了那项更艰巨的工作:构建能够支撑未来发展的数据基础。此后的一切,才得以在此基础上展开。

 

Gus Rivera 是 Seagull Software 首席技术官,在企业创建、团队建设以及创新型云原生软件产品开发方面拥有 20 多年经验。他是 Seagull Track & Trace 单品与库存跟踪平台的首席架构师。Gus 还领导着 Seagull 的软件工程、云运维和支持团队。