课程简介
机器学习和深度学习作为AI的核心技术,可谓掌握了这两者,便跨过了AI的准入门门槛。迄今为止,专为就业或转型AI量身定做的「机器学习集训营」已经举办了十八期,每一期都涌现出了很多offer,或应届研究生高薪就业,或从Java等传统IT行业成功转型AI拿到年薪三四十万,部分超过四十万拿到五十万,有的甚至年薪百万(详见本页面底部的“就业信息”模块)。
疫情结束后的过去一年风起云涌,大模型席卷全球,本第十九期在上一期的基础上加入大模型的相关技术与项目,具体而言
- 技术部分:增加AI绘画与多模态、以及大模型相关的最新技术
- 项目部分:对相关项目进行大模型背景下的改造,使得最新的六大企业级项目升级为“1 自动驾驶车道线检测、2 智能问答机器人:从传统问答到大模型问答、3 移动电商的商品推荐系统、4 大规模行人重识别(ReID)、5 电商商品检索系统、6 H&M多模态时尚商品推荐”外,在提升大家的AI项目经验和工程能力的同时,让大家紧跟大模型时代下各个企业的招聘需求
- 线下部分:疫情之后,再度恢复线下,在北京、上海、深圳等地区各自增加一天线下,围绕各地企业的招聘需求进行项目总结、简历优化、就业辅导与模拟面试(上午10-12,下午2-6)
如此,从Python分析起步,逐步掌握机器学习、深度学习,最后整整一个月的CV/NLP/推荐企业级项目实战,一切为了学员更好的就业转型、与系统提升
特色服务
-
全面涵盖AI核心技能和企业级项目且增加线下
本期集训营总计五大部分,十四个实战项目(六大企业项目、八大实训项目),内容全面细致,由浅入深:从预习阶段的Python基础与数据分析、到机器学习原理、机器学习代码实战、深度学习原理与代码实战,且包含CV/NLP/推荐三大方向的BAT企业级项目实战、面试就业辅导等等
-
十二位一体的教学模式
为了更好的确保教学效果,促进后续的就业、转型、提升,特围绕“教学测练评”设置十二位一体的教学模式,具体包含:入学测评、直播为主、实时答疑、布置作业、阶段考试、毕业考核、一对一批改、CPU&GPU双云平台、组织比赛、联合认证、面试辅导、就业推荐等等。
-
提供GPU云实验平台
还原BAT真实生产环境,提供工业数据和国内首创的价值数十万的GPU云实验平台(提前装Tensorflow、Pytorch、Keras等主流DL框架和相关数据)。提供完善的实验平台供您动手、真枪实战,拒绝纸上谈兵。
-
标准化项目流程 手把手带你做项目
多位BAT大咖带你手把手从头到尾实现自己的项目,比如CV项目跨镜追踪/重识别(ReID)的完整流程为:第一周 环境搭建与数据准备、第二周 特征工程、第三周 模型构建、第四周 迭代优化、第五周 评估、部署、总结。
-
大厂技术专家和助教全方位辅导三年
我们拥有来自BAT的专家级讲师和数位助教,给你全程全天候1V1般的定制辅导。且一次报名 服务三年,三年里无论是学习中还是工作中遇到问题,课上课后每天答疑,手把手教会为止。
-
简历优化面试辅导就业推荐一应俱全
完成项目进入就业阶段后,BAT等大厂技术专家会一对一进行简历优化(比如将集训营项目整理到简历中)、面试辅导(比如面试常见考点/模型/算法),且和就业老师一起进行就业推荐(包括BAT等一线互联网公司的工作机会推荐,从而3个月挑战年薪40万)。
实战项目
六大企业项目
-
企业项目一
自动驾驶车道线检测
项目简介:自动驾驶中一个重要技术是自主车对周围场景的理解与定位,其中车道线检测技术是一种图像语义分割技术。
涉及技术:通过本次项目你将学习到单帧和多帧的车道线检测方法,包括UNET、SCNN和SDA等分割模型,项目知识点可以扩展到其他语义分割和自动驾驶任务中。
-
企业项目二
智能问答机器人:从传统问答到大模型问答
智能问答是NLP领域落地最多的场景项目之一,其商业价值较高,能有效解决业务问题,降低人力成本,以一问一答形式,精确的定位用户所需要的提问知识,与用户进行交互,为用户提供个性化的信息服务。智能问答机器人包括封闭域与开放域、封闭域即特定领域的问答。
本项目涉及分类,检索式任务及生成式任务,用到的模型包括:Word2vec、ELMo、TextCNN、DialoGPT、ChatGLM-6B等多种模型。
-
企业项目三
移动电商的商品推荐系统
电商业务在全球各大互联网公司的营收中都占有极其重要的地位,推荐系统对用户推荐商品的质量好坏直接影响了巨头们的股价,商品推荐团队是公司各大算法团队中的核心团队,有着绝对地位的优势,我们针对全球Top 1的电商数据进行推荐算法优化。
-
企业项目四
大规模行人重识别(ReID)
行人重识别(ReID)技术是近年来学术界和工业界的热点问题,ReID技术最大的价值就在于其跨摄像头追踪/关联的能力,有时也被称为跨镜追踪/识别。在当前智慧城市、智慧交通、智慧零售的大背景下,如何细粒度地甄别每个个体(行人或者车辆),并进行个体轨迹还原和串联是理解数据、应用数据的关键。在各大计算机视觉顶级学术会议,都有大量的ReID论文出现,工业界也纷纷公开宣传了其在ReID公开数据集上取得刷新纪录的突破。
-
企业项目五
电商商品检索系统
电商商品检索基于自然语言处理、大数据处理、及其学习技术,根据用户输入的文本Query从海量商品中检索得到目标商品的检索技术,是电商业务下的基础的信息服务。本项目将文本处理出发,讲解文本分词、意图识别ElasticSearch倒排和商品排序的过程。从头搭建商品搜索引擎,了解企业级的检索系统的搭建。
-
企业项目六
@H&M多模态时尚商品推荐
在线商店为购物者提供了广泛的产品选择供您浏览。但如果选择太多,客户可能无法很快找到他们感兴趣的东西或他们正在寻找的东西,最终他们可能不会购买。为了增强购物体验,产品推荐是关键。更重要的是,帮助客户做出正确的选择也对可持续性产生积极影响,因为它可以减少回报,从而最大限度地减少运输排放。
设计的商品推荐系统根据以往交易数据以及客户和产品元数据开发产品推荐。可用的数据涵盖从简单数据(例如服装类型和客户年龄)到来自产品描述的文本数据,再到来自服装图像的图像数据。
八大实训项目
项目1:sklearn建模与使用
项目2:Xgboost与LightGBM使用
项目3:Caffe&Tensorflow实战
项目4:图像分类与检索
项目5:癌症病理检测
项目6:基于YOLOv3模型的目标检测
项目7:新浪新闻文本分类
项目8:基于DIEN的电商广告CTR预估
讲师团队
-
陈博士AI/NLP方向的技术专家
曾任浪潮集团数据科学家,国家电网人工智能行业应用方向团队负责人。参与过一国家863项目,且曾主持一山东省自主创新及成果转化专项,发明专利十余项,专业论文十余篇。对机器学习、NLP相关技术的原理推导,以及深度学习在能源、通信、气象等行业的应用深有研究。另给电网、青大等做过数十场AI内训。
-
July七月创始人兼LLM项目开发团队负责人
微软AI MVP,北理工校外导师,Github上2万余star,CSDN 2000万PV博客『结构之法 算法之道』博主,单篇平均阅读量10w+,去过近百所985/211高校分享过算法,亦是华为云等数十个大会的演讲嘉宾
兼管公司LLM项目开发团队(带队开发AIGC模特生成、论文审稿GPT、企业多文档知识库问答等LLM商用落地项目) -
CV Seven博士BAT CV算法资深技术专家
博士毕业于国内TOP 5高校,目前在知名大厂担任资深技术专家以及CV算法团队负责人,在AI和CV领域发表了CVPR/ICCV/AAAI/IJCAI等多篇顶尖会议和期刊论文以及担任相关论文的审稿人。有深厚的学术背景和丰富的项目及业务落地经验,并长期担任技术面试官,授课风格深入浅出、诙谐幽默。
-
CV刘老师大厂CV研发
硕士毕业于北航计算机学院,擅长计算机视觉的相关算法应用,多次在爱奇艺等各大公司举办的CV和NLP竞赛中获得过冠军、亚军等优异成绩。
-
NLP赵老师大厂NLP高级算法研发
多年ML/DL项目经验,专注NLP方面,对序列标注、分文分类、文本匹配、文本摘要、智能问答等文本任务均有实际项目经验,讲课通俗易懂,有丰富的LLM训练调试及实际项目落地经验。
-
推荐殷老师推荐和广告方向的技术专家
就职于BAT的商业变现部门,在点击率预估、智能出价、投放策略等方面有丰富经验。
课程大纲
-
-
预习阶段 Python基础和数据分析
在线视频:Python基础语法语法精讲
- 1-Anaconda安装及使用
- 2-循环判断语句
- 3-函数
- 4-面向对象
- 5-文件以文件夹操作
在线视频:Python核心语法进阶
- 1-高阶函数的使用
- 2-迭代器、生成器、装饰器详解
在线视频:数据分析numpy和pandas精髓速讲
- 1-numpy基本操作
- 2-pandas基本操作
- 2-项目实战:美国大选
在线视频:matplotlib数据可视化
- 1-matplotlib基本操作
- 2-常用2D图形使用
- 3-项目实战:电商商品数据探索性分析
在线直播:开班宣讲
在线实训:入学测试
-
第一部分 机器学习原理
在线视频:1-机器学习简介、广义线性模型(线性回归、逻辑斯蒂回归)精髓速讲
在线视频:2-决策树、Boosting模型融合的精髓速讲
在线视频:3-朴素贝叶斯、SVM模型精髓速讲
在线视频:4-XGBoost精讲
- 1-提升方法Boosting(加法模型和前向分布算法)
- 2-提升决策树与梯度提升决策树(BDT与GBDT)
- 3-XGBoost原理(目标函数、二阶泰勒展开、叶节点最优分数)
- 4-XGBoost应用及三类参数详解,和代码实现
在线视频:5-陈博士带你从头到尾通透word2vec
- 1-CBOW与Skip-gram模型
- 2-基于层序softmax的模型训练过程
- 3-基于负采样的模型训练过程
- 4-负采样的采样方法
在线视频:6-序列到序列任务中的编码器-解码器架构
- 1-Seq2Seq任务中的编码器-解码器架构
- 2-RNN Encoder-Decoder网络架构
- 3-Seq2seq with Attention网络架构
在线直播:7-机器学习原理答疑
在线视频:8-机器学习基本流程,基础模型与sklearn使用
- 1-基本流程(数据清洗、数据建模、模型训练与验证)
- 2-基本模型(线性模型、树模型、神经网络、无监督模型)
- 3-sklearn介绍与使用(基础介绍、语法)
- 4-sklearn使用案例讲解
在线实训:9-基于sklearn和pandas机器学习基础案例实践
在线视频:10-数据分析与特征工程串讲
- 1-数据分析方法(Matplotlib与Searborn高阶使用)
- 2-特征工程方法(类别字段编码、数值类型编码)
- 3-sklearn实践(预处理、特征工程)
- 4-结构化数据建模案例讲解
在线视频:11-特征工程处理与实践
- 1-数字图像基础(图像读取、特征提取)
- 2-文本处理基础(文本分词、TFIDF)
- 3-手写数字识别案例讲解
- 4-文本分类案例讲解
-
第二部分 机器学习实战
在线视频:1-图像与文本基础
- 1-数字图像基础(图像读取、特征提取)
- 2-文本处理基础(文本分词、TFIDF)
- 3-手写数字识别案例讲解
- 4-文本分类案例讲解
在线实训:2-图像分类与电商用户购买预测
在线视频:3-基于SQL的机器学习流程和实践
- 1-Spark与pyspark介绍
- 2-pyspark基础使用(数据读取、聚合与基础计算)
- 3-pyspark进阶使用(定义函数、数据统计)
- 4-pyspark实战案例
在线实训:4-机器学习中SQL常见用法和文本分类
在线直播:5-机器学习实践案例高阶
- 1-模型调参方法(网格、随机和贝叶斯优化)
- 2-模型训练流程与细节
- 3-特征筛选方法
- 4-高阶实践案例讲解(多个Kaggle竞赛案例)
在线实训:6-机器学习进阶案例实践
在线直播:7-机器学习模型部署与案例
- 1-LightGBM/XGBoost模型使用和参数讲解
- 2-模型部署基础(库打包、HTTP协议、调用方法)
- 3-模型部署与调用案例(实时请求、批量请求)
- 4-docker介绍,以及docker部署模型细节
- 5-机器学习模型部署案例
在线实训:8-模型部署案例——阿里云安全恶意程序检测
在线视频:9-Home Credit用户信贷违约预测
- 1-项目介绍、背景和评价指标
- 2-特征编码和特征工程
- 3-基于LightGBM建模过程
- 4-基于MLP的建模过程
在线视频:10-机器学习项目实战:时序心跳信号分类
- 1-时间序列数据与数据分解
- 2-时序特征工程
- 3-时序数据扩增方法
- 4-1D CNN和LSTM分类模型
-
第三部分 深度学习原理与实践:从CNN/RNN/LSTM到Transformer
在线视频:1-神经网络初步:全连接与反向传播
在线视频:2-深度神经网络、Wide & Deep模型架构理解
在线视频:3-卷积神经网络、实战图像分类
在线视频:4-循环神经网络、文本情感分类和图文生成模型
在线视频:5-深度学习在工业项目中的应用(调参、优化、模型压缩)
在线视频:6-深度学习在物体检测中的应用:Two-Stage和One-Stage框架
在线直播:7-常见深度学习框架的应用
- 1-常见的深度学习框架(TensorFlow、Keras和Pytorch)
- 2-深度学习层与使用
- 3-深度学习模型搭建
- 4-数据扩增与模型优化
在线视频:8-通透理解Transformer:从自注意力机制到多头注意力机制
- 1-如何一步一步的理解自注意力机制
- 2-如何直观且快速理解多头注意力
在线直播:9-从GPT/GPT2/GPT3:微调到prompt学习的过渡
- 1-GPT:基于Transformer Decoder预训练 + 微调/Finetune
- 2-GPT2承1启3:基于prompt尝试舍弃微调 直接Zero-shot Learning
- 3-GPT3:In-context learning正式开启prompt新范式(小样本学习)
在线直播:10-深度学习模型实践技巧:工业界是如何通过蒸馏收敛到一个更优的部署模型
-
-
第四部分 CV NLP 推荐三大方向的核心技能及完整项目实战
CV核心技能:OpenCV、物体检测、扩散模型DPPM
在线视频:1-计算机视觉基础
- 1-计算机视觉简介
- 2-图像的组成原理
- 3-OpenCV玩转图像
- 4-OpenCV视频处理
在线视频:2-深度学习图像处理基础
- 1-三步搞定深度学习
- 2-传统图像处理中的图像特征
- 3-计算机视觉中的视觉特征
- 4-什么是神经网络
- 5-熟悉Pytorch:快速搭建神经网络
在线视频:3-图像搜索技术:从Autoencoder到ConvNets
- 1-基于无监督深度学习的图像搜索技术-Autoencoder
- 2-基于有监督深度学习的图像搜索技术-ConvNets
- 3-应用ConvNets作图像搜索任务的实践经验
- 4-理解深度排序技术
在线视频: 4-Two-Stage物体检测
- 1-深入理解物体检测的评价指标
- 2-NMS及其近年来变种(Soft-NMS、Softer NMS、Adaptive NMS等)
- 3-深入理解Anchor机制
- 4-RCNN家族模型详解(从RCNN到Cascade RCNN)
- 5-再谈使用Autoencoder和ConvNets构建图像搜索系统
在线视频:5-One-Stage物体检测
- 1-SSD、YOLO系列模型剖析
- 2-Focal Loss背后的原理
- 3-物体检测的参数解析
- 4-再谈Anchor:实际业务场景中Anchor需要调整吗?
- 5-再谈用Keras/PyTorch 搭建Image Caption模型
在线视频:6-扩散模型DPPM:先前向加噪后反向去噪从而建立噪声估计模型
- 1-极简发展史:从扩散模型、DDPM、improved DDPM到DALL·E/DALL·E2
- 2-DDPM的两个过程:从前向过程到逆向过程
- 3-DDPM如何训练:通过噪声估计模型预测真实噪声——最小化估计噪声与真实噪声之间的差距
- 4-如何通过训练好的DDPM生成图片
在线视频:7-stable diffusion的云端部署
- 1-阿里云环境及资源准备过程
- 2-环境配置及模型下载
- 3-Web-UI部署启动及效果展示
- 4-基于LoRA微调Stable Diffussion实战
CV完整项目实战:自动驾驶车道线检测
项目一:自动驾驶车道检测
在线直播:CV1-自动驾驶车道线检测-项目介绍和环境搭建
- 1-车道线检测背景
- 2-车道线检测常见数据集
- 3-车道线评价指标
在线直播:CV2-自动驾驶车道线检测-基础模型构建
- 1-基于直线检测的思路
- 2-基于语义分割的模型构建
- 3-Pytorch编写
在线直播:CV3-自动驾驶车道线检测-模型迭代与优化
- 1-SCNN模型和SAD模型构建
- 2-模型迭代优化
在线直播: CV4-自动驾驶车道线检测-模型部署与加速
- 1-模型蒸馏与部署
- 2-模型量化与打包
NLP核心技能:数据处理、词嵌入、文本匹配、ChatGPT原理
在线视频:1-NLP中的文本处理相关技术
- 1-NLP背景与发展现状
- 2-中英文字符串处理
- 3-常见中英文分词方法
- 4-正则表达式使用方法
- 5-数据清洗、提取与统计
在线视频:2-NLP中的文本表示相关技术
- 1-One-hot与Bag of words表示
- 2-TF_IDF与TextRank关键词提取
- 3-glove生成词向量
- 4-fasttext生成词向量
- 5-word2vec生成词向量
在线视频:3-使用不同方法生成词向量
在线直播: 4-中文相似文本匹配
- 1-文本数据标注方法
- 2-文本数据扩增方法
- 3-词向量与序列匹配
- 4-Bert NSP与BertCES对比学习
在线直播: 5-ChatGPT背后的原理解析
- 1-ChatGPT底层强大的语言模型:从transformer到GPT1/2/3
- 2-揭秘为何可以做推理和debug:从GPT3到GPT3.5的指令微调、思维链、代码训练
- 3-ChatGPT是如何训练而成的:InstructGPT训练三阶段的全面理解
NLP完整项目实战:智能问答机器人——从传统问答到大模型问答
项目二:智能问答机器人
在线直播:NLP-1-智能问答机器人项目介绍和环境搭建
- 1-环境搭建
- 2-智能客服的架构介绍与说明
- 3-使用word2vec生成句向量
在线直播:NLP-2-意图识别与文本匹配
- 1-文本分类模型
- 2-文本匹配模型
在线直播:NLP-3-智能问答机器人中的闲聊
- 1-seq2seq结构介绍
- 2-GPT2模型介绍
- 3-使用GPT2做闲聊
在线直播:NLP-4-智能问答机器人项目的部署、总结
- 1-项目优化
- 2-部署与上线
- 3-客服系统总结
在线视频:NLP-5-基于大模型ChatGLM-6B的智能聊天机器人
- 1-ChatGLM-6B的基座模型:GLM的整体原理
- 2-ChatGLM-6B的部署与微调:LoRA/P-Tuning微调
- 3-ChatGLM-6B的架构与实现:6B源码解读
在线视频:NLP-6-ChatGLM-6B的微调
- 微调ChatGLM-6B:基于PEFT框架的LoRA、P-Tuning v2
推荐系统核心技能:召回、排序、重排序
在线视频:1-推荐业务、feed流产品及推荐算法策略架构解析
- 1-推荐业务和推荐feed流产品详解
- 2-推荐策略架构分解
- 3-基于point wise 的stacking model
在线视频:2-召回算法和业界最佳实践
- 1-BAT里常用的CF算法以及变种
- 2-Hybrid CF 算法
- 3-Model Based CF(LFM矩阵分解、NMF、SVD)
- 4-基于改进版协同过滤算法实战
在线视频:3-用户特征和Item特征的常用方法
- 1-推荐系统中的核心特征
- 2-Embedding的数学本质和计算方法
- 3-用户画像和商品画像
- 4-手动和自动特征工程
- 5-特征工程实战及工业界特征评价体系
在线视频:4-排序算法&深度学习模型
- 1-BAT里基础建模流程构造(涉及样本、特征、模型、系统设计和实践)
- 2-深度召回模型最新进展(向量检索、深度学习等)
- 3-深度排序最新进展(WDL、DeepFM、DeepCross等)
- 4-用户序列建模(LSTM、GRU, word2vec等)
推荐系统完整项目实战:电商平台的商品推荐系统
项目三:电商平台的商品推荐系统
在线直播:推荐-1-商品推荐系统介绍和环境搭建
- 1-数据处理/机器学习/深度学习框架环境搭建
- 2-商品推荐系统介绍、真实数据集介绍
- 3-项目任务、评估指标理解
在线直播:推荐-2-商品推荐系统特征工程
- 1-商品推荐任务拆分、思路分析;数据集探索和理解
- 2-特征处理、特征构建、特征工程方法总结;训练、测试样本处理
- 3-基于启发式规则的预估方法实践
在线直播:推荐-3-商品推荐系统模型构建
- 1-Collaborative Filtering-based Recommendation
- 2-LR基础模型、GBDT Boosting 模型实战
- 3-DNN神经网络推荐算法(WDL/NFM等)介绍
在线直播:推荐-4-商品推荐系统迭代优化
- 1-DNN神经网络推荐算法(WDL/NFM等)模型实战
- 2-模型评估
- 3-推荐系统完整性梳理
- 4-扩展知识:推荐系统在线serving分模块的应用
-
第五部分 项目库补充项目实习与就业指导
项目四:大规模行人重识别(ReID)
在线视频:CV-1-行人重识别项目(ReID)背景与基线方法
- 1-搭建基线算法Pipeline
- 2-从交叉熵损失构建深度特征学习
- 3-模型训练初步技巧
在线视频:CV-2-行人重识别项目(ReID)跑通训练+评测流程
- 1-构建评价指标
- 2-定制Data Loader实现高级预处理
- 3-模型训练高级技巧
在线视频:CV-3-行人重识别项目(ReID)多任务训练框架
- 1-深度排序损失Triplet Loss的优雅实现
- 2-交叉熵损失与深度排序损失并行训练技巧
- 3-多任务训练框架的Inference实现
在线视频:CV-4-行人重识别项目(ReID)模型优化迭代及总结
- 1-标签平滑、随即擦出等训练技巧实现
- 2-在线困难样本挖掘技术
- 3-困难深度排序损失Triplet Hard Loss实现
项目五:电商商品检索系统
在线视频:电商商品搜索系统:搜索引擎与项目介绍
- 1-搜索引擎架构详解
- 2-搜索数据集和评价指标
在线视频:电商商品搜索系统:内容索引和ElasticSearch
- 1-内容倒排和索引
- 2-ElasticSearch介绍和使用
在线视频:电商商品搜索系统:Query文本理解
- 1-Query 分词、改写和实体识别
- 2-Query 联想技术和意图识别
在线视频:电商商品搜索系统:召回与排序
- 1-意图、实体和文本多路召回
- 2-TF-Ranking和Transformer 排序模型
项目六:@H&M多模态时尚商品推荐
在线视频:多模态时尚商品推荐-项目介绍和环境搭建
- 1-时尚推荐项目背景
- 2-推荐系统常见数据集
- 3-推荐系统评价指标
在线视频:多模态时尚商品推荐-基础模型构建
- 1-协同过滤与内容推荐
- 2-词向量与孪生网络搭建
- 3-Pytorch代码编写
在线视频:多模态时尚商品推荐-模型迭代与优化
- 1-召回模型与排序模型
- 2-多模态特征
- 3-模型迭代优化
在线视频:多模态时尚商品推荐-模型部署与加速
- 1-模型蒸馏与部署
- 2-向量特征与检索
- 3-模型量化与打包
在线实训:1-基于YOLOv3模型的目标检测与人体姿态估计
在线实训:2-新浪新闻文本分类
在线实训:3-基于DIEN的电商广告CTR预估
线下实战(北京/上海/深圳)
北京线下:针对北京企业的项目总结、简历优化、就业辅导与模拟面试
上海线下:针对上杭南京等地的项目总结、简历优化、就业辅导与模拟面试
深圳线下:针对深广企业的项目总结、简历优化、就业辅导与模拟面试
在线直播:全国机器学习/深度学习面试辅导