{ "cells": [ { "cell_type": "code", "execution_count": 1, "id": "a78759c8", "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/home/firouzi/embedding_model/.venv/lib/python3.10/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n", " from .autonotebook import tqdm as notebook_tqdm\n" ] } ], "source": [ "from datasets import load_dataset\n", "\n", "dataset = load_dataset(\"SajjadAyoubi/persian_qa\")\n" ] }, { "cell_type": "code", "execution_count": 2, "id": "c91f659a", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "6306\n", "9008\n" ] } ], "source": [ "all_dataset = []\n", "for data in dataset[\"train\"]:\n", " if len(data[\"answers\"][\"text\"]) > 0:\n", " all_dataset.append({'question': data['question'], 'passgae_positive': [data['context']], 'passgae_negative': []})\n", "\n", "print(len(all_dataset))\n", "print(len(dataset[\"train\"]))\n" ] }, { "cell_type": "code", "execution_count": 3, "id": "d66809ce", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "{'question': 'اولین مکان علمی که عبارت داده شناسی را استفاده کرد کجا بود؟', 'passgae_positive': ['علوم رایانه یا علوم کامپیوتر به مجموعهٔ مطالعاتی گفته می\\u200cشود که به زیربناهای نظری، روش\\u200cهای طراحی و ساخت و چگونگی استفاده از رایانه می\\u200cپردازند.رشته علوم کامپیوتر را می\\u200cتوان به زیررشته\\u200cهای نظری و عملی بسیاری تقسیم کرد. بعضی از این زیررشته\\u200cها، نظیر نظریه پیچیدگی محاسباتی (که خواص اساسی مشکلات محاسباتی و قابل حل بودن آن\\u200cها را بررسی می\\u200cکند) بسیار انتزاعی هستند، این در حالی است که زیررشته\\u200cهای دیگر مانند گرافیک کامپیوتری به بررسی کاربردهای قابل لمس تر در دنیای واقعی تأکید دارند. اکثر زیررشته\\u200cهای علوم کامپیوتر بر چالش\\u200cهای موجود در اجرای محاسبات تمرکز دارند. اولین مؤسسهٔ علمی که عبارت داده\\u200cشناسی را بکار برد DIKU گروه داده\\u200cشناسی در دانشگاه کپنهاگ بوده\\u200cاست که توسط پیتر ناور در سال ۱۹۶۹ به عنوان اولین گروه داده\\u200cشناسی بنا گذاشته شد. عبارت زیر از دانشمند معروف علم رایانه ادسخر دیکسترا نقل قول شده\\u200cاست: \"علم رایانه به همان اندازه در مورد رایانه است که نجوم در مورد تلسکوپ.\" در بسیاری از کشورهای پیشرو در زمینهٔ علوم کامپیوتر، مثل ایالات متحده آمریکا و کشورهای اروپایی، رشتهٔ علوم کامپیوتر رشتهٔ اصلی در زمینهٔ علوم و مهندسی کامپیوتر و سیستم\\u200cهای اطلاعاتی است.'], 'passgae_negative': []}\n" ] } ], "source": [ "print(all_dataset[10])" ] }, { "cell_type": "code", "execution_count": null, "id": "e2f94154", "metadata": {}, "outputs": [], "source": [ "data[\"answers\"]" ] } ], "metadata": { "kernelspec": { "display_name": ".venv", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.12" } }, "nbformat": 4, "nbformat_minor": 5 }