آنچه در این مقاله میخوانید [پنهانسازی]
در سالهای اخیر، نیاز به تحلیل احساسات متن فارسی با هوش مصنوعی به شدت افزایش یافته است. کاربران شبکههای اجتماعی روزانه میلیونها متن و توییت تولید میکنند که سرشار از احساساتی مانند شادی، غم و خشم هستند. برای ساخت مدلهای هوش مصنوعی و ابزارهای NLP فارسی، وجود یک مجموعه داده معتبر و دقیق ضروری است. دیتاست Persian Sentiment and Emotion یکی از مهمترین منابع در این حوزه است که شامل ۱۲ هزار توییت فارسی با برچسبهای عاطفی است. این دیتاست میتواند نقطه شروعی برای توسعه ابزارهای تحلیل احساسات فارسی، چتباتهای هوشمند و حتی ابزارهای پایش شبکههای اجتماعی باشد.
سرفصل های مقاله
مشخصات دیتاست
این مجموعه داده ویژگیهای زیر را دارد:
- شامل ۱۲,۰۰۰ نمونه واقعی از توییتر فارسی
- فرمت اصلی دادهها به صورت CSV
- برچسبگذاری شده با احساساتی چون شادی، غم و خشم
- قابل استفاده برای یادگیری ماشین، یادگیری عمیق و الگوریتمهای پردازش زبان طبیعی فارسی
لینک دیتاست: Persian Sentiment and Emotion
چرا این دیتاست اهمیت دارد؟
بسیاری از پژوهشگران در جستجوی یک مجموعه داده اخبار جعلی یا دیتاست احساسات فارسی با کیفیت بالا بودهاند. با وجود دیتاست Persian Sentiment and Emotion، امکان آموزش مدلهایی فراهم میشود که میتوانند متنهای فارسی را در سطوح مختلف تحلیل کنند. این قابلیت به سازمانها کمک میکند تا:
- نظر مشتریان را از روی شبکههای اجتماعی تحلیل کنند
- پایش اخبار و شایعات در فضای مجازی انجام دهند
- احساسات عمومی درباره یک محصول، برند یا رویداد را بررسی کنند
ساختار پروژه در GitHub
در مخزن GitHub مربوط به این دیتاست، ابزارها و اسکریپتهایی برای پردازش و تحلیل دادهها قرار داده شدهاند. این پروژه به صورت مرحلهبهمرحله طراحی شده و شامل بخشهای زیر است:
پیشپردازش دادهها
- 01_sentiment_dataset_cleaning.py: پاکسازی و آمادهسازی دیتاست احساسات همراه با نمودارها
- 02_emotion_dataset_cleaning_p1.py و 03_emotion_dataset_cleaning_p2.py: پاکسازی دیتاست هیجانات در دو بخش مختلف
- 04_sentiment_dataset_sampling.py: نمونهگیری و متعادلسازی دادههای احساسات
- 05_emotion_dataset_sampling.py: نمونهگیری و متعادلسازی دادههای هیجانات
پیادهسازی مدلهای هوش مصنوعی
- Claude 3.7 Sonnet برای تحلیل احساسات و تشخیص هیجان
- DeepSeek-V3 برای مدلهای NLP فارسی
- Gemini 2.0 Flash برای دستهبندی متنها
- GPT-4o برای تحلیل پیشرفته احساسات و عواطف
تحلیل آماری و ارزیابی
- Bootstrap confidence intervals برای تخمین دقت مدلها
- McNemar’s test برای مقایسه نتایج مدلهای مختلف
آماده سازی محیط و پیشنیازها
برای اجرای پروژه و استفاده از دیتاست نیاز به محیط Google Colab یا یک سیستم محلی با ابزارهای زیر دارید:
- Python نسخه 3.11.12
- کتابخانههای Pandas، NumPy، Matplotlib، Seaborn
- کلیدهای API برای Claude، DeepSeek، Gemini و GPT-4o
راهاندازی پروژه
دستورات اصلی نصب و اجرا در GitHub به صورت زیر ارائه شدهاند و باید دقیقا همینطور استفاده شوند:
git clone https://github.com/KianTohidi/Persian_Sentiment_and_Emotion
cd Persian_Sentiment_and_Emotion
سپس میتوانید فایلها را در محیط Google Colab آپلود کرده و بر اساس ترتیب عددی موجود در کدها اجرا کنید.
مثال ساده از استفاده در پایتون
برای نشان دادن نحوه استفاده از دیتاست، یک مثال ساده برای بارگذاری دادهها و بررسی توزیع برچسبها در پایتون:
import pandas as pd
import matplotlib.pyplot as plt
# بارگذاری دیتاست نمونه
data = pd.read_csv("persian_sentiment_emotion.csv")
# نمایش پنج ردیف اول
print(data.head())
# شمارش تعداد نمونهها برای هر برچسب
label_counts = data['label'].value_counts()
# رسم نمودار میلهای
label_counts.plot(kind='bar', color=['green', 'blue', 'red'])
plt.title("توزیع برچسبها در دیتاست Persian Sentiment and Emotion")
plt.xlabel("نوع احساس")
plt.ylabel("تعداد نمونهها")
plt.show()
این کد به شما امکان میدهد بفهمید چه میزان داده برای هر دسته احساس وجود دارد و مدل یادگیری ماشین باید با چه توزیعی آموزش ببیند.
کاربردهای دیتاست در NLP فارسی
این دیتاست در پروژههای مختلفی میتواند مورد استفاده قرار گیرد:
- تشخیص احساسات در شبکههای اجتماعی: برای شناسایی نظرات مثبت و منفی کاربران
- تحلیل بازخورد مشتریان: برای درک بهتر نیازها و نارضایتیها
- پایش رویدادهای اجتماعی: تحلیل واکنش عمومی به حوادث یا تصمیمات دولتی
- آموزش مدلهای Transformer فارسی: مانند BERT یا T5 برای دستهبندی احساسات
نتیجه گیری
وجود یک دیتاست ۱۲هزار نمونهای از توییتهای فارسی با برچسب احساسات، فرصت بزرگی برای پژوهشگران و توسعهدهندگان NLP است. با این مجموعه داده میتوان ابزارهایی ساخت که توانایی تحلیل دقیق احساسات کاربران را دارند و در زمینههایی مانند بازاریابی، مدیریت ارتباط با مشتری و تحلیل اجتماعی بسیار ارزشمند هستند. ترکیب این دیتاست با مدلهای پیشرفتهای مثل GPT-4o یا DeepSeek میتواند به توسعه سیستمهای تحلیل احساسات پیشرفته در زبان فارسی منجر شود.






