Тема :Анализ на данни
Тема :Анализ на настроението на отзиви за продукти
Цел :Целта на това задание е да се извърши анализ на настроенията върху рецензиите на продукта, за да се определи настроенията на рецензента към продукта.
Инструкции :
1. Подготовка на данните :
- Съберете набор от данни за отзиви за продукти от подходящ източник (напр. Amazon, Yelp).
- Почистете данните чрез премахване на дублиращи се рецензии, обработка на липсващи стойности и преобразуване на текста в малки букви.
2. Проучвателен анализ на данни :
- Разгледайте данните, за да разберете техните характеристики и разпространение.
- Извършване на основни статистически данни, като преброяване на честотата и облаци от думи, за идентифициране на често срещани думи и фрази, използвани в прегледите.
3. Анализ на настроението :
- Използвайте подходяща библиотека или инструмент за анализ на настроението (напр. TextBlob, VADER или spaCy), за да присвоите оценки на настроението към всеки преглед.
- Групирайте отзивите в положителни, отрицателни или неутрални категории въз основа на оценките им за настроение.
4. Инженеринг на функции :
- Извлечете подходящи характеристики от рецензиите, които могат да допринесат за настроението. Те могат да включват честоти на думите, препинателни знаци или други функции, свързани с НЛП.
5. Модел за машинно обучение :
- Разработете модел за контролирано машинно обучение, за да класифицирате отзивите като положителни или отрицателни.
- Обучете модела върху етикетираните данни и оценете неговата ефективност, като използвате подходящи показатели (напр. точност, прецизност, припомняне и F1-резултат).
6. Тълкуване на модел :
- Визуализирайте прогнозите на модела, като използвате матрици на объркване или други подходящи визуализации.
- Анализирайте неправилно класифицираните прегледи, за да идентифицирате области за подобрение.
7. Докладване :
- Напишете доклад, обобщаващ резултатите от анализа на настроението.
- Включете подробности за подготовката на данните, проучвателния анализ на данни, инженеринг на функции, обучение на модели и резултати от оценката.
Подаване :
- Изпратете следното:
- Jupyter Notebook или скрипт на Python, съдържащ вашия код и анализ.
- PDF доклад, обобщаващ констатациите.
Краен срок :
- Крайният срок на заданието е [дата].
- Късните подавания ще доведат до неустойка от 10% на ден.