刘晖：AI创新应用技能大赛赛前培训

刘晖专家讲师 379查看

课程概要

培训时长 : 11天

课程价格 : 扫码添加微信咨询

课程分类 : 人工智能

课程编号 : 16844

联系老师

适用对象

课程介绍

教学计划

1-数据科学 3天
- 编程语言Python
- 科学计算numpy
- 数据分析pandas
- 数据可视化matplotlib，seaborn
- 2-机器学习和数据挖掘6天
  - 机器学习基础
  - 线性回归
  - 逻辑回归
  - KNN
  - 决策树
  - 集成学习(随机森林等)
  - 聚类
  - 特征工程
  - XGboost
  - 推荐系统
- 3-竞赛题分析 2天
  - 竞赛案例分析(1)
  - 竞赛案例分析(2)

课程时间

学习期限： 11天

课程安排

日期

主题

内容

Day1

上午

Python复习

人工智能基本概念
数据科学基本概念
开发环境的安装配置
标识符
输入、输出和格式化
单行注释和文档注释
基础数据类型和类型转换
运算符
条件控制语句
循环控制语句
Google的编程规范
组合数据类型

列表、元组、集合、字典、字符串、Range

函数
面向对象
库、模块和包的概述
文件读写
常用库

Day1

下午

Numpy复习

Numpy基本概念
创建ndarray数组的三种方式

手动创建数据

自动创建一维数据，变形

自动创建多维数据

属性
数据类型
索引和切片
函数
方法
通用函数
数组广播

实例1：计算鸢尾花的统计数据

实例2：使用梯度法计算积分的面积

Day2

上午

matplotlib可视化库

Seaborn可视化库

Matplotlib的原理
Seaborn库的原理
创建画布
创建子图
设置刻度
设置范围
设置图例
保存图形和显示图形
全局设置和中文乱码
设置网格
设置文本，箭头和注解
散点图/折线图/柱状图/直方图/饼图/箱线图/小提琴图/
Searborn可视化库

Day2

下午

pandas数据分析（上）

pandas数据分析的介绍
数据类型Series和DataFrame
读写数据

从内存/csv/excel/mysql中读/写数据

查看数据

形状、数据类型、空值、前n行和后n行、统计信息、唯一性、计数统计等。

选择数据
索引和切片
清洗数据
删除行/列，替换，类型转换，修改列名，修改索引名

Day3

上午

pandas数据分析（下）

apply函数
排序

按值/索引

数据整理

横向/纵向连接，行索引和列索引互相转换，行索引和列互相转换。

分组
透视表
交叉表
统计

Day3

下午

数据分析案例

案例分析：

快餐店
欧洲杯
酒类消费
姓名数据
苹果股价
NBA比赛

Day4

机器学习基础

线性回归

Scikit-learn工具

机器学习介绍
有监督学习和无监督学习
训练集、验证集和测试集
一元线性回归
最小二乘法和代价函数
梯度下降法
过拟合和正则化
Ridge回归
Lasso回归
Elastic Net回归

实操1：相关系数

实操2：梯度下降

实操3：线性回归

实操4：Ridge回归

实操5：LASSO回归

实操6：Elastic Net

Day5

逻辑回归

KNN

逻辑回归介绍
逻辑回归中多分类解决方案
模型评估与度量
交叉验证
学习曲线
网格搜索
偏差、方差、均方差、泛化误差
查全率、查准率和F1参数
ROC曲线与AUC面积
KNN原理
KNN实践

实操1：线性逻辑回归实现

实操2：非线性逻辑回归

实操3：KNN预测约会网站配对

实操4：KNN预测电影分类

实操5：KNN预测鸢尾花分类

实操6：KNN预测手写数字分类

Day6

决策树

随机森林

决策树原理
ID3算法
C4.5算法
Gini算法
算法优化：预剪枝
算法优化：后剪枝
决策树回归
集成算法简介
袋装法集成算法
随机森林集成算法
Adaboost集成算法
机器学习调优

实操1：决策树预测房价

实操2：决策树预测隐形眼镜类型

实操3：随机森林算法演示

实操4：Adaboost算法演示

实操5：病马死亡率预测

实操6：泰坦尼克号存活预测

Day7

聚类

特征工程

聚类原理
各种相似度度量及其相互关系
K-means聚类
DBSCAN密度聚类
数据预处理
特征工程介绍
数据无量纲化
标准化/归一化
缺失值处理
文字转数字
连续转离散
多项式转换
特征选择-Filter
特征选择-Wrapper
特征选择-Embeding
PCA降维

实操1：用Python实现kmeans的实现

实操2：用Sklearn实现kmeans聚类

实操3：用Sklearn实现dbscan密度聚类

Day8

XGboost

回归树原理
梯度提升树gbdt原理
Xgboost原理
Xgboost的推导过程
Xgboost调参

实操1：回归树预测房价

实操2：gbdt预测回归案例

实操3：Xgboost的参数调优

实操:4：Xgboost在数据竞赛中运用

Day9

推荐系统-关联规则

推荐系统-协同过滤

推荐系统的介绍
关联规则算法Apriori简介和推导
项集，支持度，置信度和提升度
关联规则算法实践
基于用户的协同过滤推荐算法原理
相似度计算
基于物品的推荐算法原理
基于用户的推荐算法原理

实操1：实现Arpiori算法

实操2：英国零售商的商品推荐

实操3：实现movielens电影推荐

Day10

竞赛案例分析(1)

1. 建模流程

1) 需求分析

2) 数据清洗

3) 数据预处理

4) 特征工程

5) 建模

6）度量

7）模型优化

2. 案例：金融欺诈（分类）

3. 案例：鲍鱼年龄（回归）

Day11

竞赛案例分析(2)

竞赛冠军解题思路
电信案例分析（1）
电信案例分析（2）

刘晖老师的其他课程

• 刘晖：AIGC大模型算力平台建设实践: 一、课纲 2天01生成式AI的算力需求与挑战02生成式AI的算力服务器开发背景03生成式AI的算力服务器发展历程04生成式AI的算力服务器设计指南4.1 设计原则4.1.1 应用导向原则4.1.2 多元开放原则4.1.3 绿色高效原则4.1.4 统筹设计原则4.2 设计指南4.2.1 多维协同设计节点层面：（1）系统架构（2）OAM模块（3）UBB基板（4）硬件设计（5）散热设计（6）系统管理（7）故障诊断（8）软件平台集群层面：（1）集群网络与存储（2）整机柜（3）液冷（4）制冷（5）运维4.2.2 全面系统测试（1）结构测试（2）散热测试（3）稳定性测试（4）软件兼容性测试4.2.3 性能测评调优（1）基础性能测试（2）互连性能测试（3）模型性能测试（4）模型性能调优二、授课方式理论讲授：通过讲解和演示，使学员掌握课程内容；实践操作：提供实际操作和实践的机会，使学员能够亲自动手进行实践；案例分析：通过案例分析，使学员了解课程内容的应用前景和实际效果；互动讨论：鼓励学员提问、分享经验和见解，促进知识交流与碰撞。

• 刘晖：AI 大模型需要什么样的数据: AI 大模型需要什么样的数据一、课纲 1天第一章 AI 大模型需要什么样的数据集数据将是未来AI 大模型竞争的关键要素数据集如何产生他山之石#1：海外主要大语言模型数据集数据集#1：维基百科数据集#2：书籍数据集#3：期刊数据集#4：WebText（来自Reddit 链接）数据集#5：Common crawl/C4 其他数据集他山之石#2：海外主要多模态数据集类别#1：语音+文本类别#2：图像+文本类别#3：视频+图像+文本类别#4：图像+语音+文本类别#5：视频+语音+文本他山之石#3：海外主要大模型数据集由何方发布高质量语言数据和图像数据或将耗尽，合成数据有望生成大模型数据第二章数字中国战略助力中国AI 大模型数据基础发展中国AI 大模型数据集从哪里来中国大模型如何构建数据集#1：LLM中国大模型如何构建数据集#2：多模态大模型中国开源数据集#1：大语言模型数据集中国开源数据集#2：多模态模型数据集国内数据要素市场建设逐步完善，助力优质数据集生产流通数据交易环节：数据交易所发展进入新阶段，缓解中文数据集数量不足问题数据加工环节：数据服务产业加速发展，助力中文数据集质量提升AI 时代数据的监管与隐私保护问题数据产业链数据生产环节数据处理环节二、授课方式理论讲授：通过讲解和演示，使学员掌握课程内容；实践操作：提供实际操作和实践的机会，使学员能够亲自动手进行实践；案例分析：通过案例分析，使学员了解课程内容的应用前景和实际效果；互动讨论：鼓励学员提问、分享经验和见解，促进知识交流与碰撞。

• 刘晖：AI 大模型企业是如何炼成的 --深度解析各AI大模型企业: 第一部分：海外大模型：科技巨头自主研发，积极联盟AI 初创公司如何形成“数据-模型-应用”的飞轮是AI 大模型企业成功关键微软&OpenAI 领先，谷歌追赶，Meta 防御性开源，英伟达转型算力云服务.科技巨头正通过其云计算部门，积极寻求与AI 初创公司的合作OpenAI：全球领先的AI 初创企业发展历程：从非营利开端到向营利性全面转型团队：年轻、背景豪华且高度聚焦技术算力：强大的算力支撑GPT 释放大模型潜能模型：坚持GPT 技术路径，持续探索生成式AI 潜力应用：以产品为导向形成数据飞轮，逐步构建生态圈谷歌：LLM 领域的奠基者发展历程：从AI 技术研发的领军者到产业化进程的推动者团队：Google DeepMind 汇集谷歌AI 领域人才算力：TPU 系列芯片和新一代超级计算机支撑AI 大模型训练和创新框架：领先的自研深度学习平台TensorFlow 模型：各技术路线的模型储备丰富，多模态大模型实现人机交互领域突破应用：积极布局生成式AI 应用以迎接挑战英伟达：AI 时代的芯片领路者发展历程：英伟达的二十年辉煌史团队：灵魂人物引导产业变革，数次收购完善业务版图商业模式：深度绑定台积电走OEM 模式，轻装上阵重视研发投入硬件迭代：训练/推理芯片性能参数持续领先对手软件：CUDA 构建完整生态，CUDA-X AI 结构拉开巨大差距Meta：AI 和元宇宙双轮并驱发展历程：全球最大社交媒体巨头拥抱元宇宙和AIGC 团队：AI 人才汇聚，旨在创建AIGC 顶级产品团队算力：拥有全球最快AI 超级计算机AI RSC，推出自研AI 芯片MTIA框架：PyTorch——深度学习领域最受欢迎的框架之一模型：布局生成式AI，开源语言、视觉等大模型AWS：全球卓越的云服务平台发力AIGC 市场发展历程：全球领先的云服务平台强势入局AIGC 算力：提供最具成本效益的生成式Al 云基础设施框架：一站式机器学习平台Amazon SageMaker 助力AIGC 模型：推出Titan 大模型及中立托管平台Bedrock产品：免费向个人开放AI 编程助手Amazon CodeWisperer Anthropic：OpenAI 前核心成员创建的人工智能安全与研究公司Anthropic 前期以科研为重心，研究AI 模型的安全问题加快商业化脚步，推出ChatGPT 的有力对手Claude Anthropic 加速融资以支撑AI 模型训练和部署第二部分：国内大模型：互联网巨头和已有充分积累的初创公司百度：昆仑芯+飞桨平台+文心大模型，构建广泛应用端生态团队：百度CTO 王海峰领衔，技术大牛带队算力：两代自研通用AI 芯片“昆仑”支持大模型落地框架：产业级深度学习平台“飞桨”为大模型构建提供有力支撑文心大模型：“基础+任务+行业”大模型三层体系全面满足产业应用需求应用：大模型生态逐步构建，推动AI 落地产业阿里巴巴：通义大模型构建大一统模型，所有产品将接入通义千问阿里达摩院：孕育阿里巴巴人工智能的技术沃土算力：自研芯片含光800 和倚天710 提供高性价比算力支持框架：统一易用的分布式深度学习训练框架EPL 支撑“大一统”模型构建通义大模型：基于AI 统一底座的层次化体系应用：赋能产品应用增效，推出模型即服务共享平台腾讯：算力集群+混元大模型，赋能自身业务生态降本增效团队：混元助手项目组由大牛带队，3 位PM 顶梁，聚集跨事业群精英算力：自研三款芯片和搭建算力集群以满足AI 大模型训练需求混元大模型：依托低成本算力和自研底座构建，模型可直接落地应用应用：赋能自身业务生态降本增效，广告类应用效果出众华为：昇腾芯片+MindSpore+盘古大模型，B 端应用场景落地可期领导者：华为云AI 首席科学家田奇算力：以自研AI 芯片昇腾作为根基，打造AI 产业平台框架：深度学习框架MindSpore 和一站式AI 开发平台ModelArts 提升模型开发效率盘古大模型：赋能千行百业的三阶段体系应用：行业大模型逐步落地，B 端场景应用可期商汤：SenseCore 大装置+日日新大模型算力：基于AI 大装置SenseCore，以AI 模型赋能四大业务.日日新大模型：构建面向AGI 的核心能力，驱动垂直行业降本增效应用：MaaS 模式可能成为重要新趋势智谱AI：依托清华大学技术成果，打造高性能千亿级普惠大模型团队：核心成员与清华大学联系紧密模型：智谱AI 致力于打造高性能千亿级普惠大模型二、授课方式理论讲授：通过讲解和演示，使学员掌握课程内容；实践操作：提供实际操作和实践的机会，使学员能够亲自动手进行实践；案例分析：通过案例分析，使学员了解课程内容的应用前景和实际效果；互动讨论：鼓励学员提问、分享经验和见解，促进知识交流与碰撞。