广告统计数据库设计实践，分享数据架构与优化经验

广告统计数据库的核心是宽表设计，使用分区表按日期分区，主表包含广告ID、投放日期、展示次数、点击次数、转化数等维度指标。优化经验：采用ClickHouse作为OLAP引擎，支持海量数据实时聚合查询；数据流从Kafka流入Flink实时计算，再落盘ClickHouse。索引优化使用物化视图预聚合日/周/月数据，查询延迟降至秒级。分区策略结合日期+广告主ID，避免全表扫描。

从亿级广告日志到高效统计：数据架构实践

我们处理日PV超10亿的广告日志，架构上采用TiDB作为存储层，支持分布式HTAP。日志先入ES暂存，定时ETL到TiDB宽表，字段包括ad_id, user_id, timestamp, event_type (show/click/conv)。优化点：TiDB的自动分桶+二级索引，查询广告ROI时用Spark SQL聚合。实际效果：单表QPS达5万，存储压缩后节省60%空间。

广告数据仓库设计与性能调优分享

广告统计表设计为星型模型，事实表fact_ads_metrics连接维度表dim_ad, dim_campaign, dim_user_geo。使用Hive+Parquet存储，按dt分区和ad_id分桶。优化经验：动态分区插入避免小文件问题；查询用CBO优化器，预热物化视图如daily_summary；结果：月活跃广告主查询从10min降到5s。

ClickHouse在广告统计中的应用实践

ClickHouse ReplacingMergeTree引擎完美适合广告去重统计。表结构：ORDER BY (date, ad_id, user_id) PRIMARY KEY (date, ad_id)，MergeTreeSettings低内存合并。数据从Kafka消费，用ReplacingMergeTree自动去重重复展示/点击。优化：TTL自动清理7天前数据，查询用GROUP BY + MATERIALIZED VIEW实时汇总CTR、CPC指标，性能提升10倍。

海量广告数据优化：从MySQL到分布式架构

初期MySQL单表1亿行瓶颈明显，转向OceanBase分布式数据库。宽表schema：ad_id bigint, date date, impressions int, clicks int, revenue decimal。分区键(date, tenant_id)，全局二级索引(ad_id, date)。经验：批量INSERT用prepared statement，读查询加读写分离，广告报表生成时间从小时级到分钟级。

广告BI平台的数据库设计心得

事实表按层级设计：日志层、日聚合层、周月层。使用Druid作为实时OLAP，segment按小时切分。维度建bitmap索引加速交集计算，如用户重定向广告曝光。优化：theta_sketch精确估计算法，查询复杂漏斗分析支持亚秒响应。

实战：广告统计系统的架构演进与优化

系统从MySQL+Redis缓存演进到Flink+ClickHouse。实时链路：广告日志→Kafka→Flink SQL窗口聚合（5min tumbling）→ClickHouse upsert。离线链路：Hive ETL全量日结。关键优化：ClickHouse的LowCardinality(String)压缩字符串字段，节省50%存储；查询用distributed表联邦多节点聚合。

FAQ
Q: 广告统计数据库为什么用宽表而不是规范化？
A: 宽表减少JOIN开销，适合OLAP聚合查询，查询速度快10倍。
Q: 如何处理广告数据实时性需求？
A: 用Kafka+Flink实时流计算，结合ClickHouse upsert，支持秒级更新。
Q: 大表分区策略怎么选？
A: 优先日期分区+热点键如ad_id分桶，避免数据倾斜。
Q: 如何优化存储成本？
A: 用Parquet/ORC列式存储+压缩+ZSTD，结合TTL过期删除。