从语言到信息

陈一帅

yschen@bjtu.edu.cn

北京交通大学电子信息工程学院网络智能实验室

北京交通大学《从语言到信息》课程,源自斯坦福大学 Dan Jurafsky 教授 CS124 《从语言到信息》,讲解自然语言信息处理和应用系统设计的基本原理和算法,一路下来,带大家在动手中,走上算法研发的职业道路。详细课程信息请访问:https://yishuai.github.io/bigalgo/nlp.html

目录

  1. 文本处理
  2. 文本分析
  3. 语言模型
  4. 词性标注与命名实体识别
  5. 向量语义与Embedding
  6. Logistic 回归 和 神经元网络
  7. Transformer
  8. 预训练模型
  9. 对话系统
  10. 实验:电影推荐对话机器人

一、文本智能

1.1 文本处理

本节介绍大数据文本处理的利器:

它们会让你在实际的工作中如虎添翼!

斯坦福 Dan Jurafsky 教授材料

对话推荐系统练习

  1. 基本文本信息提取、用户情感感知、合作过滤,腾讯文档

1.2 文本分析

本节介绍大数据文本处理实用技术,包括文本处理流程,n-gram,TF-IDF,LDA的基本代码实验和范例代码。

学习材料

  1. Rayid Ghani,芝加哥大学,Text Analytics 101,PDF

练习

  1. 卡耐基梅隆大学,社会公益数据科学实验室,社会公益数据科学搭便车指南,第二课,文本分析部分,Github代码,文本特征提取,主题模型

1.3、语言模型

本节介绍大数据文本处理的基础模型:语言模型,包括:

斯坦福 Dan Jurafsky 教授材料

1.4 词性标注与命名实体识别

本节介绍词性标注(POS)与命名实体识别(NER)的基本概念。

斯坦福 Dan Jurafsky 教授材料

1.5 向量语义与Embedding

本节从两个方面探索单词的意义:

语义学方面,介绍单词之间的关系,包括:

向量语义:基于单词的语言学分布(如:经常一起出现的单词)来定义单词的意义,包括:

斯坦福 Dan Jurafsky 教授材料

1.6 Logistic 回归 和 神经元网络

本节介绍 Logistic 回归(LR)和 神经元网络(NN)的基本概念,包括:

斯坦福 Dan Jurafsky 教授材料

对话推荐系统练习

  1. Python机器学习编程基础,腾讯文档
  2. Logistic 回归、神经元网络、用户需求和喜好感知, 腾讯文档

1.7 Transformer

本节介绍 Attention、基于 Self Attention 的 序列模型Transformer。它们十分强大,是目前主流深度学习模型的核心模块。请一定要掌握它们。

伯克利 Sergey Levine 教授材料

练习

  1. Transformer,腾讯文档

1.8 预训练模型

本节介绍 无监督 预训练 模型 的基本概念,包括 Word2Vec,预训练模型(ELMO、BERT、GPT)。它们十分强大,是目前主流深度学习模型的核心模块。请一定要掌握它们。

学习材料

体验

  1. Python Code,How to Fine Tune BERT for Text Classification using Transformers in Python, 网页Colab
  2. DialoGPT 对话实验,Colab

练习

  1. 预训练模型,腾讯文档

1.9 对话系统

本节介绍对话系统的基本概念,包括:

斯坦福 Dan Jurafsky 教授材料

对话推荐系统练习

  1. 面向任务的自然语言理解,腾讯文档

J. 实验

A. Python入门

王一行,《Python基础指南》,Docx, 1.6MB

B. 机器学习编程入门

张璇,《Python机器学习快速上手入门指南》,Docx, 237KBPDF, 342KB,Iris实验代码和数据,Zip,1.5MB

C. 电影推荐对话机器人

项目介绍与起始代码:斯坦福 CS124 电影推荐机器人,Github

实验报告

  1. 准备阶段
  2. 第一阶段:机器学习
  3. 第二阶段:深度学习
  4. 第三阶段:对话系统设计
  5. 总结