完蛋!系列
每年元旦后我都会写个炸裂的年度总结放在自己的飞书签名里,俗称完蛋!系列。它在一堆冷漠的技术文档中显得格外耀眼。
so essentially I lead a group of 4 big data engineers, and this is the work from a very small team.
以下是 2023 和 2024 的内容,略有删减,数据有脱敏。
完蛋!我被大数据包围了!2023 版
1. 我们搭建的链路
x 车型项目研发/量产两种场景的数据链路,进行大规模、自动化的数据接入、解析处理和挖掘。当前性能如下
场景 | 云 | 服务 | 性能 |
---|---|---|---|
量产 | 公有云 | 流处理 | 日均接入 x 千万+,累计 xx 亿条信号 |
实时数仓 | 日均 x 万次查询 | ||
研发 | 私有云 | 接入/存储 | 新增 xxxx TB,累计 xx PB |
处理/计算 | 日均 x 万次任务调度,累计 xxx 万 | ||
挖掘 | 已交付 x 亿张图片,xxx 亿条结构化数据,x 亿帧点云 |
2. 我们正在进行研发的产品
名称 | 场景和价值 |
---|---|
图像存储服务 | 解决海量图片存储成本高的问题,比 jpeg 单张存储空间节省 60%以上。 提供标准化接口,支持模型训练和分析回放场景下的批量取图。 |
OLAP 数据库 | 基于社区版 clickhouse 研发,代替阿里和 aws 公有云厂商托管产品 |
3. “如果”指北
3.1 如果你想了解 x 两条数据链路的现状。比如服务健康度和交付统计。
我们有如下完整的链路和服务自动化监控,并自动化生成各类周报日报。请扫描二维码,欢迎加入我们一起陪伴飞书机器人。
[这里有截图和二维码]
3.2 如果你想了解 x 路采数据的全貌,或者从全量路采数据中,找到特定车辆特点时间的原始数据包。
请阅读 x 用户使用手册。如果你有组账号的 ak/sk,可以自行下载数据包。
[这里有截图]
3.3 如果你想挖掘 x 研发链路采集的 rosbag 数据,或者想批量获取大量原始图片和点云。
我们已经对接过非常多来自算法等团队的挖掘需求。
请了解数据开发过程指南,在数据已接入大数据平台后,按照数据开发需求模板提需求,1-2 周内交付。
3.4 如果你想挖掘 x 量产数据。
请联系 x 团队,他们被赋予了访问用户数据的权限。我们会一直技术上支持他们。
3.5 如果你想申请国内外云资源和数据相关权限
请先走流程 http://x,联系@xxx 和@xxx
3.6 如果你有其它想法,请直接飞书@我
完蛋!大数据已经是 next level 了!2024 年总结版
Previously on 大数据 《完蛋!我被大数据包围了!2023》
所以今年整了啥?
1. 我们不需要管的数据链路
扩展到了多个车型,无运维成本
车型 | 场景 | 接入数据量 |
---|---|---|
A | 量产 | xxx 亿条信号数据 |
研发 | xxx 万个包 | |
B | 量产 | xx 亿条 |
研发 | xxx 万个 | |
C | 研发 | x 万个包 |
2. 我们不废吹灰之力的挖掘需求交付
- xxx 数据需求,累计调度任务 xx 万次,研发数据交付有效数据 xx 万,量产交付有效数据 x 万;
- xxxxx、xxxxxxx、xxxx、xxxx、xxxx 等,共计交付: 结构化 xxx 亿条,图片 x 亿张,其它(点云/视频/地图/bag 包)等 xx 亿个。
3. 新出炉的大数据挖掘平台(花式找包)
3.1 范式一:结构化标签
[这里有产品截图和使用分析、数据增长曲线]
3.2 范式二:自然语言场景描述
[这里有产品截图和使用分析、数据增长曲线]
3.3 范式三:地理围栏/导航轨迹
[这里有产品截图和使用分析、数据增长曲线]
3.4 范式四:图像理解
(2025 年 1 月上线)almost there
3.5 范式五:多种范式联合使用
(2025 年 1 月上线)almost there
业务收益
- 平台在 2024 年同时完成了 product release、data growth 和 user growth;
- 平台的研发过程也沉淀了例如图像存储服务、向量数据库、OLAP 数据库、分布式推理服务等核心中间件和技术栈;
- 在多个 xxxx 任务中(右侧)已全面铺开使用,将 xx 研发的数据准备周期从数采一般需要 2 周-2 个月大幅度缩短到 0.5 天。
4. 思考
- 所以为什么找包、快速精准找包很重要很紧急?因为我们认为,post large language model era 的底层公式是:高质量数据+便宜电能+高端芯片= 高级智能。在终局里,模型架构一定会趋同收敛,high quality domain data 才是关键(能源、芯片反正我也干不了 so far),当然训练工程化不能太拉垮;
- 研发大数据挖掘平台,我们就是要用多种范式让研发团队能从海量数据中,迅速形成高质量数据集;将来进入大模型堆数据量的阶段,fundation capability 是唯一能打的。
- But clearly this is not enough, 找到了包不等于能交付。2025 年我们要延伸平台能力,把找出的包自动喂给训练平台,完成训练集预处理和模型训练。让 raw data => searchable => trainable => model weigths 的链路实现全自动化。
One more thing
2024 年我们大数据组 50% 的组员当了爸爸 🎉,from my perspective this is huge