Python 机器学习决策树中文和英文特征提取

weixin_42098295

已于 2024-03-01 22:26:08 修改

阅读量1.1k

点赞数 30

文章标签：机器学习 python 决策树

于 2024-03-01 22:18:24 首次发布

本文链接：https://blog.csdn.net/weixin_42098295/article/details/136407145

版权

Python 机器学习中，在使用决策树模型时，对于包含中文和英文特征的数据集进行特征提取是一个常见的需求。特征提取的目的是将原始数据转换为模型可以理解的格式。通常涉及到将文本数据编码为数值数据，以及可能的降维。有效地对包含中文和英文的数据集进行特征提取，从而为机器学习模型的训练做好准备。

参考文档：Python 机器学习决策树中文和英文特征提取-CJavaPy

1、对于英文特征提取

对于包含英文文本的特征，在使用决策树等机器学习模型之前，通常需要进行特征提取或转换，以将文本数据转换为模型可以处理的数值形式。文本特征提取的目标是将文本转换为一组数值特征，这些特征能够代表原始文本的某些重要属性。

1）词袋模型（Bag of Words, BoW）

词袋模型是一种简单的文本表示技术，其中每个文档被表示为一个词汇表中词语的出现次数，而不考虑词序和语法。在词袋模型中，每个文档转换为一个长向量，此向量的长度等于词汇表中的词语数量，每个元素是特定词语在文档中出现的次数。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 示例文本数据和标签
texts = [
    "the quick brown fox jumps over the lazy dog",
    "never jump over the lazy dog quickly",
    "the quick brown fox is quick",
    "a quick brown dog outpaces a quick fox"
]
labels = [0, 0, 1, 1]  # 假设我们有两个类别：0和1

# 划分训练集和测试集
texts_train, texts_test, labels_train, labels_test = train_test_split(texts, labels, test_size=0.25, random_state