发布于 2024-06-11 15:38:24

机器学习技术

人工智能主要包括感知智能（比如图像识别、语言识别和手势识别等）和认知智能（主要是语言理解知识和推理）。它的核心是数据驱动来提升生产力、提升生产效率。

机器学习相关技术属于人工智能的一个分支。其理论主要分为如下三个方面：

传统的机器学习：包括线性回归、逻辑回归、决策树、SVM、贝叶斯模型、神经网络等等。
深度学习（Deep Learning）：基于对数据进行表征学习的算法。好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
强化学习（Reinforcement Learning）：强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。和标准的监督式学习之间的区别在于，它并不需要出现正确的输入/输出对，也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。

在现实生活中，机器学习技术主要体现在以下几个部分：

监督学习：训练数据中有我们想要预测的属性，也就是说对每一组输入数据，都有对应的输出。问题可以分为两类：
- 分类问题：数据属于有限多个类别，希望从已标记数据中学习如何预测未标记数据的类别。
  - 例子：手写数字的识别（0-9共10个类别）。
- 回归问题：每组数据对应的输出是一个或多个连续变量。
  - 例子：是根据鲑鱼长度作为其年龄和体重。
无监督学习：训练数据无对应的输出值。
- 例子：数据聚类、降维。
弱监督学习/半监督学习：
- 弱监督：标签里的数据存在质量低的情况；目的是将数据标签映射会更强的标签。
- 半监督：训练数据有部分没有标签。基本思想是利用数据分布上的模型假设, 建立学习器对未标签样本进行标签。比如样本存在聚类结构，同一个聚类中的标签应该相同；相邻样本的标签应该相同。

科学家们的定义：

更通俗的理解：

图像分类
- 根据输入的手写数字图片，预测数字。或者我们数据库中有很多种动物，训练一种模型，能根据不同动物的图片预测其所属种类。
- 一个应用场景是手写支票的文字识别。
```
原始图像 --> 机器学习模型 --> 类别
```
目标检测
- 目标检测比图像分类更进一步，模型的输入是一副图像，输出是物体(Object)在图中的区域和类型。
- 比较典型的应用场景是无人驾驶领域。
```
原始图像 --> 机器学习模型 --> 标签（包括区域信息和类别）
```
语义分割
- 可以理解为是一个分类问题，从检测到的目标图像中，分割出和检测物体相关的像素点信息。
```
原始图像 --> 机器学习模型 --> 标签（包括区域信息、类别和物体包括的像素信息）
```
场景理解
- 将图片中不同区域的图像分解为不同的区域和场景。
- 典型的案例还是无人驾驶，根据识别的场景，从而规划可行的路线。

文本分类
- 输入新闻稿件，得到新闻所属的类别。
- 典型的案例是Google或百度的新闻自动聚合。
机器翻译
- 从一种语言文字翻译为另外一种语言文字。例如常用的Google翻译。
生成文章摘要
- 输入文章，生成文字摘要（abstract）
情感分析 (sentiment analysis)
- 包括情感分类（sentiment classification）、观点抽取（opinion extraction）、观点问答和观点摘要等。
- 应用案例：通过对微博文字的情感分析，获取客户对企业品牌的评价、分析营销活动的影响、民意调查等
问答系统
- 问答系统能够准确地理解以自然语言形式描述的用户提问，并通过检索异构语料库或问答知识库返回简洁、精确的匹配答案。当然除了NLP的技术外还涉及知识图谱等相关技术。
- 例如Apple Siri也是先将文字转换为文本，然后输入到问答系统。
人机系统
- 类似问答系统，不同的是人机系统不以获取答案为目的，甚至可以闲聊。例如微软小冰。
图像描述（image captioning)
- 输入图像，输出图像对应的文字描述。需要计算机视觉里的场景理解作为前提。

上述几类问题大多需要深度学习+强化学习来解决。

几点建议

传统机器学习算法 -> 深度学习 -> LLM（语言大模型） -> VLM（视觉和语言多模态）

循序渐进、系统掌握、有所专长

浏览 (380)