excerpts and reflections, deviant ideas and intrusive thoughts.

完蛋!系列

Posted on 2025-01-11

每年元旦后我都会写个炸裂的年度总结放在自己的飞书签名里,俗称完蛋!系列。它在一堆冷漠的技术文档中显得格外耀眼。

so essentially I lead a group of 4 big data engineers, and this is the work from a very small team.

以下是 2023 和 2024 的内容,略有删减,数据有脱敏。

完蛋!我被大数据包围了!2023 版

1. 我们搭建的链路

x 车型项目研发/量产两种场景的数据链路,进行大规模、自动化的数据接入、解析处理和挖掘。当前性能如下

场景服务性能
量产公有云流处理日均接入 x 千万+,累计 xx 亿条信号
实时数仓日均 x 万次查询
研发私有云接入/存储新增 xxxx TB,累计 xx PB
处理/计算日均 x 万次任务调度,累计 xxx 万
挖掘已交付 x 亿张图片,xxx 亿条结构化数据,x 亿帧点云

2. 我们正在进行研发的产品

名称场景和价值
图像存储服务解决海量图片存储成本高的问题,比 jpeg 单张存储空间节省 60%以上。 提供标准化接口,支持模型训练和分析回放场景下的批量取图。
OLAP 数据库基于社区版 clickhouse 研发,代替阿里和 aws 公有云厂商托管产品

3. “如果”指北

3.1 如果你想了解 x 两条数据链路的现状。比如服务健康度和交付统计。

我们有如下完整的链路和服务自动化监控,并自动化生成各类周报日报。请扫描二维码,欢迎加入我们一起陪伴飞书机器人。

[这里有截图和二维码]

3.2 如果你想了解 x 路采数据的全貌,或者从全量路采数据中,找到特定车辆特点时间的原始数据包。

请阅读 x 用户使用手册。如果你有组账号的 ak/sk,可以自行下载数据包。

[这里有截图]

3.3 如果你想挖掘 x 研发链路采集的 rosbag 数据,或者想批量获取大量原始图片和点云。

我们已经对接过非常多来自算法等团队的挖掘需求。

请了解数据开发过程指南,在数据已接入大数据平台后,按照数据开发需求模板提需求,1-2 周内交付。

3.4 如果你想挖掘 x 量产数据。

请联系 x 团队,他们被赋予了访问用户数据的权限。我们会一直技术上支持他们。

3.5 如果你想申请国内外云资源和数据相关权限

请先走流程 http://x,联系@xxx 和@xxx

3.6 如果你有其它想法,请直接飞书@我

完蛋!大数据已经是 next level 了!2024 年总结版

Previously on 大数据 《完蛋!我被大数据包围了!2023》

所以今年整了啥?

1. 我们不需要管的数据链路

扩展到了多个车型,无运维成本

车型场景接入数据量
A量产xxx 亿条信号数据
研发xxx 万个包
B量产xx 亿条
研发xxx 万个
C研发x 万个包

2. 我们不废吹灰之力的挖掘需求交付

  • xxx 数据需求,累计调度任务 xx 万次,研发数据交付有效数据 xx 万,量产交付有效数据 x 万;
  • xxxxx、xxxxxxx、xxxx、xxxx、xxxx 等,共计交付: 结构化 xxx 亿条,图片 x 亿张,其它(点云/视频/地图/bag 包)等 xx 亿个。

3. 新出炉的大数据挖掘平台(花式找包)

3.1 范式一:结构化标签

[这里有产品截图和使用分析、数据增长曲线]

3.2 范式二:自然语言场景描述

[这里有产品截图和使用分析、数据增长曲线]

3.3 范式三:地理围栏/导航轨迹

[这里有产品截图和使用分析、数据增长曲线]

3.4 范式四:图像理解

(2025 年 1 月上线)almost there

3.5 范式五:多种范式联合使用

(2025 年 1 月上线)almost there

业务收益

  • 平台在 2024 年同时完成了 product release、data growth 和 user growth;
  • 平台的研发过程也沉淀了例如图像存储服务、向量数据库、OLAP 数据库、分布式推理服务等核心中间件和技术栈;
  • 在多个 xxxx 任务中(右侧)已全面铺开使用,将 xx 研发的数据准备周期从数采一般需要 2 周-2 个月大幅度缩短到 0.5 天。

4. 思考

  • 所以为什么找包、快速精准找包很重要很紧急?因为我们认为,post large language model era 的底层公式是:高质量数据+便宜电能+高端芯片= 高级智能。在终局里,模型架构一定会趋同收敛,high quality domain data 才是关键(能源、芯片反正我也干不了 so far),当然训练工程化不能太拉垮;
  • 研发大数据挖掘平台,我们就是要用多种范式让研发团队能从海量数据中,迅速形成高质量数据集;将来进入大模型堆数据量的阶段,fundation capability 是唯一能打的。
  • But clearly this is not enough, 找到了包不等于能交付。2025 年我们要延伸平台能力,把找出的包自动喂给训练平台,完成训练集预处理和模型训练。让 raw data => searchable => trainable => model weigths 的链路实现全自动化。

One more thing

2024 年我们大数据组 50% 的组员当了爸爸 🎉,from my perspective this is huge