# Case **Repository Path**: nic-lee/case ## Basic Information - **Project Name**: Case - **Description**: 一些项目分析分享。。 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 9 - **Forks**: 2 - **Created**: 2021-12-11 - **Last Updated**: 2025-11-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: 数据分析 ## README # Case #### 介绍 一些项目分析、优秀案例分享及算法实践。 本人实践过的数据分析项目集合,每个项目都会包含一个友好的说明文档,用来阐述和展示整个开发流程。 #### 目的 采用不同的技术栈,通过对不同行业的数据集进行分析,期望达到以下目的: 了解不同领域的业务分析指标 深化数据处理、数据分析、数据可视化能力 增加大数据批处理、流处理的实践经验 增加数据挖掘的实践经验 #### 编程语言 项目主要使用的编程语言是 python、sql、hql、.ipynb 可以用 jupyter notebook 打开,很适合用来做数据分析可视化以及写文章、写示例代码等。 #### 列表 | 序号 | 主题 | 技术栈 | 备注 | | ---- | ---------------------------- | ------------------------------------------------------------ | ---------------- | | 1 | 销售预测 | 清洗 pandas + 线性回归/ARIMA时序建模 + 可视化 matplotlib | 建模预测 | | 2 | 库存预测 | 清洗 pandas + 分析mysql + 定义库存周期计算 | 建模预测 | | 3 | 用户成单预测 | 多表特征工程 + 小特征产生多特征 + 数据挖掘xgboost + 准确率验证 | 建模预测 | | 4 | 用户流失预测 | 多表特征工程 + 数据挖掘xgboost + 准确率验证 | 建模预测 | | 5 | 基于关联规则的产品推荐 | 清洗 pandas + 定义关联规则Apriori + 频繁项集置信度 | 数字营销 | | 6 | 基于聚类算法的商品推荐 | 清洗 pandas + 聚类 Kmean + 分组排序 + 可视化 pyecharts | 数字营销 | | 7 | 投放预算最优解 | Python linprog()函数 / Matlab计算 | 数据运营 | | 8 | ABtest项目是否显著 | 可视化 matplotlib + 假设性检验 + 定义ABtest函数 | 数据运营 | | 9 | 信贷客户评分卡 | 利用银行定义IV(衡量特征奉献) 合理分箱数 +逻辑回归计算评分卡系数 | 金融风控 | | 10 | 价值用户行为数据分析 | 建表 hive + 分析hql + 基于RFM模型打分价值用户 | RFM模型分析 | | 11 | 野蛮时代游戏用户行为数据分析 | ETL多表 pandas + 分析mysql + 可视化 pyecharts | 用户行为偏好 | | 12 | 用户画像体系建立HQL | 建表 hive + HQL定义用户属性、用户行为、行为权重标签表+ TF-IDF 用户人群计算权重排序 | 用户画像 | | 13 | 销售额增长落地方案 | 清洗 pandas + 分析 pandas + 定性分析 | 可通过案例8检验 | | 14 | 数据埋点 | 数据埋点规范及ABtest的前提 | 用户分析数据采集 | #### 资料参考(若侵权请联系删除) - Kaggle abtest :https://www.kaggle.com/yufengsui/mobile-games-ab-testing - 埋点规范: https://blog.csdn.net/qq_41046286/article/details/117149289 - 《Python商业数据分析》