让一部分企业先学到真知识!

刘晖:AI 大模型需要什么样的数据

刘晖老师刘晖 注册讲师 224查看

课程概要

培训时长 : 1天

课程价格 : 扫码添加微信咨询

课程分类 : 人工智能

课程编号 : 16842

面议联系老师

适用对象

-

课程介绍

AI 大模型需要什么样的数据

一、课纲   1天

第一章 AI 大模型需要什么样的数据集

  1. 数据将是未来AI 大模型竞争的关键要素
  2. 数据集如何产生
  3. 他山之石#1:海外主要大语言模型数据集
    1. 数据集#1:维基百科
    2. 数据集#2:书籍
    3. 数据集#3:期刊
    4. 数据集#4:WebText(来自Reddit 链接)
    5. 数据集#5:Common crawl/C4 
    6. 其他数据集
  4. 他山之石#2:海外主要多模态数据集
    1. 类别#1:语音+文本
    2. 类别#2:图像+文本
    3. 类别#3:视频+图像+文本
    4. 类别#4:图像+语音+文本
    5. 类别#5:视频+语音+文本
  5. 他山之石#3:海外主要大模型数据集由何方发布
  6. 高质量语言数据和图像数据或将耗尽,合成数据有望生成大模型数据

第二章 数字中国战略助力中国AI 大模型数据基础发展

  1. 中国AI 大模型数据集从哪里来
  2. 中国大模型如何构建数据集#1:LLM
  3. 中国大模型如何构建数据集#2:多模态大模型
  4. 中国开源数据集#1:大语言模型数据集
  5. 中国开源数据集#2:多模态模型数据集
  6. 国内数据要素市场建设逐步完善,助力优质数据集生产流通
  7. 数据交易环节:数据交易所发展进入新阶段,缓解中文数据集数量不足问题
  8. 数据加工环节:数据服务产业加速发展,助力中文数据集质量提升
  9. AI 时代数据的监管与隐私保护问题
  10. 数据产业链
  11. 数据生产环节
  12. 数据处理环节

二、授课方式

理论讲授:通过讲解和演示,使学员掌握课程内容;

实践操作:提供实际操作和实践的机会,使学员能够亲自动手进行实践;

案例分析:通过案例分析,使学员了解课程内容的应用前景和实际效果;

互动讨论:鼓励学员提问、分享经验和见解,促进知识交流与碰撞。

刘晖老师的其他课程

• 刘晖:AI 大模型企业是如何炼成的 --深度解析各AI大模型企业
第一部分:海外大模型:科技巨头自主研发,积极联盟AI 初创公司如何形成“数据-模型-应用”的飞轮是AI 大模型企业成功关键微软&OpenAI 领先,谷歌追赶,Meta 防御性开源,英伟达转型算力云服务.科技巨头正通过其云计算部门,积极寻求与AI 初创公司的合作OpenAI:全球领先的AI 初创企业发展历程:从非营利开端到向营利性全面转型团队:年轻、背景豪华且高度聚焦技术算力:强大的算力支撑GPT 释放大模型潜能模型:坚持GPT 技术路径,持续探索生成式AI 潜力应用:以产品为导向形成数据飞轮,逐步构建生态圈谷歌:LLM 领域的奠基者发展历程:从AI 技术研发的领军者到产业化进程的推动者团队:Google DeepMind 汇集谷歌AI 领域人才算力:TPU 系列芯片和新一代超级计算机支撑AI 大模型训练和创新框架:领先的自研深度学习平台TensorFlow 模型:各技术路线的模型储备丰富,多模态大模型实现人机交互领域突破应用:积极布局生成式AI 应用以迎接挑战英伟达:AI 时代的芯片领路者发展历程:英伟达的二十年辉煌史团队:灵魂人物引导产业变革,数次收购完善业务版图商业模式:深度绑定台积电走OEM 模式,轻装上阵重视研发投入硬件迭代:训练/推理芯片性能参数持续领先对手软件:CUDA 构建完整生态,CUDA-X AI 结构拉开巨大差距Meta:AI 和元宇宙双轮并驱发展历程:全球最大社交媒体巨头拥抱元宇宙和AIGC 团队:AI 人才汇聚,旨在创建AIGC 顶级产品团队算力:拥有全球最快AI 超级计算机AI RSC,推出自研AI 芯片MTIA框架:PyTorch——深度学习领域最受欢迎的框架之一模型:布局生成式AI,开源语言、视觉等大模型AWS:全球卓越的云服务平台发力AIGC 市场发展历程:全球领先的云服务平台强势入局AIGC 算力:提供最具成本效益的生成式Al 云基础设施框架:一站式机器学习平台Amazon SageMaker 助力AIGC 模型:推出Titan 大模型及中立托管平台Bedrock产品:免费向个人开放AI 编程助手Amazon CodeWisperer Anthropic:OpenAI 前核心成员创建的人工智能安全与研究公司Anthropic 前期以科研为重心,研究AI 模型的安全问题加快商业化脚步,推出ChatGPT 的有力对手Claude Anthropic 加速融资以支撑AI 模型训练和部署第二部分:国内大模型:互联网巨头和已有充分积累的初创公司百度:昆仑芯+飞桨平台+文心大模型,构建广泛应用端生态团队:百度CTO 王海峰领衔,技术大牛带队算力:两代自研通用AI 芯片“昆仑”支持大模型落地框架:产业级深度学习平台“飞桨”为大模型构建提供有力支撑文心大模型:“基础+任务+行业”大模型三层体系全面满足产业应用需求应用:大模型生态逐步构建,推动AI 落地产业阿里巴巴:通义大模型构建大一统模型,所有产品将接入通义千问阿里达摩院:孕育阿里巴巴人工智能的技术沃土算力:自研芯片含光800 和倚天710 提供高性价比算力支持框架:统一易用的分布式深度学习训练框架EPL 支撑“大一统”模型构建通义大模型:基于AI 统一底座的层次化体系应用:赋能产品应用增效,推出模型即服务共享平台腾讯:算力集群+混元大模型,赋能自身业务生态降本增效团队:混元助手项目组由大牛带队,3 位PM 顶梁,聚集跨事业群精英算力:自研三款芯片和搭建算力集群以满足AI 大模型训练需求混元大模型:依托低成本算力和自研底座构建,模型可直接落地应用应用:赋能自身业务生态降本增效,广告类应用效果出众华为:昇腾芯片+MindSpore+盘古大模型,B 端应用场景落地可期领导者:华为云AI 首席科学家田奇算力:以自研AI 芯片昇腾作为根基,打造AI 产业平台框架:深度学习框架MindSpore 和一站式AI 开发平台ModelArts 提升模型开发效率盘古大模型:赋能千行百业的三阶段体系应用:行业大模型逐步落地,B 端场景应用可期商汤:SenseCore 大装置+日日新大模型算力:基于AI 大装置SenseCore,以AI 模型赋能四大业务.日日新大模型:构建面向AGI 的核心能力,驱动垂直行业降本增效应用:MaaS 模式可能成为重要新趋势智谱AI:依托清华大学技术成果,打造高性能千亿级普惠大模型团队:核心成员与清华大学联系紧密模型:智谱AI 致力于打造高性能千亿级普惠大模型二、授课方式理论讲授:通过讲解和演示,使学员掌握课程内容;实践操作:提供实际操作和实践的机会,使学员能够亲自动手进行实践;案例分析:通过案例分析,使学员了解课程内容的应用前景和实际效果;互动讨论:鼓励学员提问、分享经验和见解,促进知识交流与碰撞。
• 刘晖:AI 大模型对通信行业影响几何
一·课纲   0.5天AI 大模型对通信行业拉动几何?光模块&交换机:新一轮流量应用革命开启第一大变量:服务器网卡数量剧增第二大变量:数据中心网络架构变革光模块展望:23 年呈现前低后高,24 年或全面爆发数通新平台导入在即,产业升级逻辑清晰交换机:数通需求驱动增长,新一代交换芯片蓄势待发AI 服务器:量价齐升,国产崛起大模型算力需求大,AI 服务器量价齐升效应显著海外制裁有望加速国产AI 服务器快速崛起IDC 及配套设备:算力底座,新方案加速渗透运营商:算力网络主导者,对内提效对外赋能二、授课方式理论讲授:通过讲解和演示,使学员掌握课程内容;实践操作:提供实际操作和实践的机会,使学员能够亲自动手进行实践;案例分析:通过案例分析,使学员了解课程内容的应用前景和实际效果;互动讨论:鼓励学员提问、分享经验和见解,促进知识交流与碰撞。
• 刘晖:5G+AICDE业务应用与拓展
1、课程需求解读自从进入以信息化为特征的第三次工业革命以来,人类的生活已经发生了翻天覆地的变化,尤其是以第三产业的变化最为明显,而新一代技术的集中涌现,将有可能全方位地改变人类的生活、生产和社会。在5G出现之前,人工智能、云计算、物联网、大数据、边缘计算等新技术已经出现,这些技术基本上都是在各自领域相对独立地发展的,如果将各项技术融会贯通、协同发展,将加速催生各个技术的成熟,并产生核聚变一般的威力,进而促成人类生产生活方式的新一次变迁。我们看到,4G时代以人人通信为主,很多行业的数字化进程比较缓慢,而5G的核心变化就是对垂直行业的支持,届时将产生海量的数据,大数据和人工智能将成为必不可少的生产工具。5G和AICDE之间分别存在或原生或互促的密切联系,借助这种天然优势和门槛,各技术间形成“1+1>2”的叠加效应,进而打造出AIaaS(人工智能即服务)、IoTaaS(物联网即服务)、CloudaaS(云计算即服务)、DataaaS(大数据即服务)、MECaaS(边缘计算即服务)等核心能力,这些将是“5G+AICDE”策略的核心基础。而这些的主要发力点均在政企方面:顶层设计:移动以5G+AICDE构建智能社会核心引擎;核心能力:移动以自主研发打造一站式可信云平台;助力伙伴:移动以云网融合推动企业云化升级;赋能行业:移动以垂直应用加速构建行业云生态。而政企营销队伍需要掌握“5G+AICED”相关知识、应用场景及其拓展技巧,以确保在集团客户营销服务过程中,能懂得借助数字化新业务解决客户的业务问题,进而助力各行各业的数字化服务转型。2、课程简介/特色(1)课程简介本课程基于移动转型的特点,对政企市场的战略定位、竞争格局、营销思维进行详细阐述。重点阐述5G、物联网、云计算、大数据及边缘计算等转型技术和业务的应用场景和相关的拓展思路,整个课程结构遵从业务知识、应用场景、拓展方法等三个维度展开,并且会针对学员的层级,在业务知识以及营销拓展等权重方面进行有所调整。(2)课程特色沙盘模拟:在工具和方法讲解后,分组开展沙盘演练,演练后讲师对每组表现进行详细点评并作出补充;工具辅导:辅导学员掌握相关营销工具,便于学员对所学知识进行应用。图示教学:用“一张图看懂”,帮助学员更好地理解业务内在结构和应用领域等内容;类比教学:通过通俗易懂的类比教学,帮助学员理解晦涩难懂的技术术语。未来收入展望:移动数字生态系统3、与运营商贴合点运营商5G+AICDE战略,将5G与人工智能、物联网、云计算、大数据、边缘计算结合,一起构成了智能社会的核心引擎。智能社会就像一个智慧的人体,云计算就是人体的心脏,云计算为智能社会的搏动提供源源不断的动能,人工智能是大脑,大数据是血液,物联网是我们五官和手足,5G网络是动脉血管和神经网络。5、课程纲要课程名称《5G+AICDE业务应用与拓展》培训对象数字化拓展团队、数字化支撑团队等培训方式沙盘模拟、图示教学、案例分析、工具辅导、基于在线平台的项目制培训课程时长2天课程框架模块1:前沿导入0.5天模块2:5G背景知识与应用模块3:AI背景知识与应用1.5天模块4:物联网背景、知识与应用拓展模块5:云+边缘计算背景、知识与应用拓展模块6:大数据背景、知识与应用拓展  模块课程单元模块1:前沿导入1、运营商数字化转型的需要颠覆性机会的推动因素运营应内部业务增长的新动力2、三大运营上数字化转型战略中国移动数字化转型之路中国电信数字化转型之路中国联通数字化转型之路数字经济时代的本质与内涵3、数字化转型六大业务领域从工业互联网到万物互联的发展趋势从桌面互联网到移动互联网5G+AI、物联网、云计算、大数据、边缘计算——数字经济时代的技术基石4、从IT、CT到DT:DICT的融合与发展5、大数据、云计算和物联网的关系6、AICDE下的融合行业应用案例云计算与智慧城市、教育赋能、工业互联网、交通物流、健康医疗模块2:5G背景知识与应用1、发展背景:为什么需要发展5G国家政策:营改增降收入行业政策:成本连年压降跨行业竞争:移动互联网企业渗透竞争对手:加速赶上,竞争加剧2、业务理解:5G是什么5G为云、大、物赋能5G的特点:1、10、1005G依靠的新技术超密集组网          软件定义网络SDN和网络虚拟化NFV移动边缘计算MEC设备到设备通信D2D5G的六大基本特点高速度泛在网低功耗低时延万物互联安全体系3、应用场景:5G可以用在哪?5G和4G比较的新业务、新场景和新应用增强移动宽带(eMBB)介绍及应用广域大连接(mMTC)介绍及应用高可靠低时延(uRLLC)介绍及应用5G时代中国面临的巨大产业机会与趋势5G+垂直产业:工业互联网新模式、新窗口5G时代的城市大脑、智慧城市与AI5G时代的云网融合与云化产业5G时代的数字经济新模式、新商业模式模块3:AI背景知识与应用1、发展背景:为什么需要发展AIAI的前世今生从谷歌“阿法狗”谈人工智能的发展现状“AI”对互联网及ICT产业发展的战略价值2、业务理解:AI是什么“AI”能解决相关产业的哪些实际问题?“AI”不是要颠覆人类,而是成就新的跨物种合作“AI”推动新兴产业地位升级“人工智能”的发展路径深度学习(deep mind)柔性计算与神经网络类人终端3、应用场景:物联网可以用在哪?谷歌 Alpha GO百度人工大脑微软小冰唯品会机器人客服阿里基于人工智能的自动化运营ET城市大脑我国发展物联网的政策及措施模块4:物联网背景、知识与应用拓展1、发展背景:为什么需要发展物联网三大电信运营商发展物联网的思路及策略中国移动物联网发展规划及进展情况2、业务理解:物联网是什么物联网(IOT)的网络定义物联网的技术特征物联网产业链全景图物联网的分类物联网的关键技术及主要问题分析物联网智能处理平台:云计算IDC物联网的空间信息支撑技术:数字地球与数字城市物联网应用的落地:智慧城市与智慧中国物联网的应用方向3、应用场景:物联网可以用在哪?生产领域:产业升级案例分析1:鹰潭三川水表厂的实地考察与学习公共服务领域:惠民工程/平安城市案例分析2:三明智慧停车场案例分析3:平安城市建设生活领域:智慧生活案例分析4:智慧家庭案例分析5:智慧汽车一张图看懂:物联网应用全景中国移动物联网业务及应用实践案例案例分析1:移动手机市民卡及支付应用实践案例分析2:公交、出租车定位调度系统及应用实践案例分析3:公交二维码信息查询系统及应用实践案例分析4:动物溯源系统及应用实践物联网产业链及其盈利模式4、【How】业务拓展:如何拓展物联网业务后装市场、前装市场、平台运营、城市经营后装市场:卖卡怎么卖?客户关注点分析案例分析:xx移动物联网市场盘点前装市场:前装市场在哪里?离岸市场的拓展方法——触点营销案例分析:xx移动离岸市场拓展方法案例分析:5万张物联网卡靠什么?平台运营/城市运营:如何主动出击主动出击的前提:了解行业/深入客户业务流程/主动引导主动出击的工具:《行业价值链需求分析表》云计算背景简述模块5:云+边缘计算背景、知识与应用拓展1、发展背景:为什么需要发展云计算案例分析:2017年浙江省“企业上云”行动计划2、业务理解:云计算是什么云计算的概念和特征云计算与其他业务的关系云计算与IDC、大数据、物联网云计算的分类根据服务层次分(IaaS、PaaS、SaaS、DaaS)根据合作深度分(公有云、私有云、混合云、专属云)中国移动云计算实践中国移动在云计算时代面临的机遇和挑战中国移动发展云计算的优势及其产业角色分析3、业务理解:边缘计算是什么边缘计算的概念边缘计算与云计算的区别与联系5G赋能下的新课题:移动边缘计算(MEC)边缘计算的应用与案例云计算的四个应用方向4、应用场景:云计算可以用在哪?云计算典型案例分析案例分析1:移动云助国京控股公司快速部署业务系统案例分析2:沃云帮助广州市妇女儿童医疗中心迁移案例分析3:华为企业云助优果网部署弹性云服务案例分析4:阿里云助力爱线下服务器运维案例分析5:腾讯云助力银汉游戏云端迁移案例分析6:百度开放云助百度外卖实现数据管理第一步:掌握痛点4、云业务如何拓展?第二步:转变思维第三步:掌握方法产品推介四步法视频教学:SPIN销售法第四步:竞争应对有效竞争三步法1:明确产品核心价值定位/优势有效竞争三步法2:通过制约和主导,转劣为优有效竞争三步法3:通过场景化方式,描述优势大数据是时代发展需要模块6:大数据背景、知识与应用拓展1、发展背景:为什么需要发展大数据大数据在中国的发展2、业务理解:大数据是什么数据的“意义”案例:十大城市知多少?大数据的数量单位延伸数据暴涨的五个节点数据价值发展的三个阶段辅助产品阶段、创造价值阶段、数字化社会阶段大数据的五个特征大数据与传统数据的三大差别大数据的七个商业价值价值1:挖掘市场机会、细分用户价值2:提高决策能力价值3:创新企业管理模式、挖掘管理潜力价值4:催生产品和服务的创新价值5:提供个性化服务价值6:政府公共环境治理价值7:预测未来大数据在6大功能维度的应用情况及核心价值——让数据在线3、应用场景:大数据可以用在哪?大数据的商业应用案例案例分析1:腾讯借助银行卡识别用户身份案例分析2:广告联盟的精准内容推送案例分析3:银行的互联网+跨界产品案例分析4:阿里巴巴的行业数据服务运营商的八大高价值数据4、大数据业务如何拓展?运营商大数据应用变现的模式数据验真、加工数据服务、管道价值变现、产品孵化变现运营商大数据的优劣势大数据应用切入点物联网客户数据管理政府数据管理自身数据源应用案例分析:xx移动森林信息化项目大数据应用   

添加企业微信

1V1服务,高效匹配老师
欢迎各种培训合作扫码联系,我们将竭诚为您服务