236 lines
9.0 KiB
Plaintext
236 lines
9.0 KiB
Plaintext
{
|
||
"cells": [
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 1,
|
||
"id": "a78759c8",
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"1000212\n",
|
||
"250666\n",
|
||
"270642\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"import json\n",
|
||
"\n",
|
||
"dataset_synthetic_scores = []\n",
|
||
"with open('/home/firouzi/embedding_model/data_preprocess/data/synthetic-persian-qa-retrieval/train.jsonl', 'r', encoding='utf-8') as f:\n",
|
||
" for line in f:\n",
|
||
" data = json.loads(line)\n",
|
||
" dataset_synthetic_scores.append(data)\n",
|
||
"\n",
|
||
"dataset_synthetic_queries = {}\n",
|
||
"with open('/home/firouzi/embedding_model/data_preprocess/data/synthetic-persian-qa-retrieval/queries.jsonl', 'r', encoding='utf-8') as f:\n",
|
||
" for line in f:\n",
|
||
" json_data = json.loads(line)\n",
|
||
" dataset_synthetic_queries[json_data['_id']] = json_data\n",
|
||
"\n",
|
||
"dataset_synthetic_corpus = {}\n",
|
||
"with open('/home/firouzi/embedding_model/data_preprocess/data/synthetic-persian-qa-retrieval/corpus.jsonl', 'r', encoding='utf-8') as f:\n",
|
||
" for line in f:\n",
|
||
" json_data = json.loads(line)\n",
|
||
" dataset_synthetic_corpus[json_data['_id']] = json_data\n",
|
||
"\n",
|
||
"print(len(dataset_synthetic_scores))\n",
|
||
"print(len(dataset_synthetic_queries))\n",
|
||
"print(len(dataset_synthetic_corpus))"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 12,
|
||
"id": "bbb2657f",
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"106520\n",
|
||
"223423\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"all_dataset = {}\n",
|
||
"count = 0\n",
|
||
"for data_topic in dataset_synthetic_scores:\n",
|
||
" try:\n",
|
||
" query_id = data_topic['query-id']\n",
|
||
" corpus_id = int(data_topic['corpus-id'])\n",
|
||
" score = data_topic['score']\n",
|
||
"\n",
|
||
" passgae_positive = []\n",
|
||
" passgae_negative = []\n",
|
||
" if score == \"1\":\n",
|
||
" passgae_positive.append({'title': dataset_synthetic_corpus[corpus_id]['title'].replace('\\u200c', ' '), 'text': dataset_synthetic_corpus[corpus_id]['text'].replace('\\u200c', ' ')})\n",
|
||
" if all_dataset.get(query_id, None):\n",
|
||
" all_dataset[query_id]['passgae_positive'].append({'title': dataset_synthetic_corpus[corpus_id]['title'].replace('\\u200c', ' '), 'text': dataset_synthetic_corpus[corpus_id]['text'].replace('\\u200c', ' ')})\n",
|
||
" else:\n",
|
||
" all_dataset[query_id] = {'question': dataset_synthetic_queries[query_id]['text'], 'passgae_positive': passgae_positive, 'passgae_negative': passgae_negative}\n",
|
||
" else:\n",
|
||
" passgae_negative.append({'title': dataset_synthetic_corpus[corpus_id]['title'].replace('\\u200c', ' '), 'text': dataset_synthetic_corpus[corpus_id]['text'].replace('\\u200c', ' ')})\n",
|
||
" if all_dataset.get(query_id, None):\n",
|
||
" all_dataset[query_id]['passgae_negative'].append({'title': dataset_synthetic_corpus[corpus_id]['title'].replace('\\u200c', ' '), 'text': dataset_synthetic_corpus[corpus_id]['text'].replace('\\u200c', ' ')})\n",
|
||
" else:\n",
|
||
" all_dataset[query_id] = {'question': dataset_synthetic_queries[query_id]['text'], 'passgae_positive': passgae_positive, 'passgae_negative': passgae_negative}\n",
|
||
" except:\n",
|
||
" count += 1\n",
|
||
"print(count)\n",
|
||
"print(len(all_dataset))"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 15,
|
||
"id": "42166e97",
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": [
|
||
"{'query-id': 'train_2', 'corpus-id': '32409', 'score': '0'}"
|
||
]
|
||
},
|
||
"execution_count": 15,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"data_topic"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 3,
|
||
"id": "c91f659a",
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": [
|
||
"{'query-id': 'train_0', 'corpus-id': '43272', 'score': '1'}"
|
||
]
|
||
},
|
||
"execution_count": 3,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"dataset_synthetic_scores[0]\n"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 4,
|
||
"id": "d66809ce",
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": [
|
||
"{'_id': 'test_0',\n",
|
||
" 'text': 'چگونه نان کدو حلوایی را در فر بپزیم و چه نکاتی برای پخت بهتر وجود دارد؟'}"
|
||
]
|
||
},
|
||
"execution_count": 4,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"dataset_synthetic_queries[0]"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 6,
|
||
"id": "1cdb5b31",
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": [
|
||
"{'_id': 10,\n",
|
||
" 'title': '',\n",
|
||
" 'text': 'عبدالرحمن رحمانی یک سیاستمدار افغانستانی است که در دوره شانزدهم مجلس نمایندگان به عنوان نماینده مردم بلخ فعالیت می\\u200cکند. او در این مجلس عضو کمیسیون اقتصاد ملی، سازمان\\u200cهای غیر حکومتی، انکشاف دهات، زراعت و مالداری می\\u200cباشد.'}"
|
||
]
|
||
},
|
||
"execution_count": 6,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"dataset_synthetic_corpus[10]"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 37,
|
||
"id": "e6b8c9af",
|
||
"metadata": {},
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": [
|
||
"{'question': 'کتاب «تأثیر فلات زدگی شغلی در سازمان» چه کسانی را هدف قرار داده است؟',\n",
|
||
" 'passgae_positive': [{'title': '',\n",
|
||
" 'text': '\"مدیران کسب و کارها\" و \"رهبران تیم ها یا سازمان\\u200cها\" مخاطبان اصلی این کتاب هستند. با مطالعه این اثر می توانند بهتر با موضوع فلات زدگی آشنا شوند، آن را در میان کارکنان خود تشخیص دهند و راه حل هایی برای بهبود عملکرد آنها ارائه کنند.'}],\n",
|
||
" 'passgae_negative': [{'title': '',\n",
|
||
" 'text': 'این کتاب به موضوع مدیریت و رهبری اختصاص دارد که توسط پیتر اف. دراکر و جوزف اِی. ماچیاری\\u200cالو نوشته شده است. تمرکز اصلی این کتاب بر مفهوم «انجام دادن کار درست» یا اثربخشی، در مقابل صرفاً انجام صحیح امور (کارایی) است. نویسندگان تأکید می کنند که سازمان ها باید فراتر از صرفاً کارآمد بودن حرکت کرده و اطمینان حاصل کنند که ارزش واقعی برای مشتریان نهایی خلق می شود.'},\n",
|
||
" {'title': '',\n",
|
||
" 'text': 'اگر در سازمان یا کسب و کاری فعالیت می کنید که از چنین اصطلاحاتی استفاده می کند، این کتاب به شما کمک خواهد کرد تا ماهیت آنها را شناخته و از تاثیر منفی شان بر دوری جویید. همچنین با خواندن این کتاب متوجه خواهید شد که چگونه می توان گفتمان سازمانی را تغییر داده و سازمان خود را نجات داد.'},\n",
|
||
" {'title': '',\n",
|
||
" 'text': 'این کتاب به علاقه\\u200cمندان مدیریت و افرادی که در حوزه\\u200cهای مرتبط با منابع انسانی و بهبود محیط کار فعالیت می\\u200cکنند، پیشنهاد می\\u200cشود. مطالعه این کتاب می\\u200cتواند به مدیران و کارکنان کمک کند تا با شناخت بهتر استرس شغلی و راهکارهای مدیریت آن، به بهبود کیفیت کار و افزایش رضایت شغلی در محیط\\u200cهای کاری بپردازند.'}]}"
|
||
]
|
||
},
|
||
"execution_count": 37,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"list(all_dataset.values())[14500]"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": null,
|
||
"id": "74ef02a1",
|
||
"metadata": {},
|
||
"outputs": [],
|
||
"source": []
|
||
}
|
||
],
|
||
"metadata": {
|
||
"kernelspec": {
|
||
"display_name": ".venv",
|
||
"language": "python",
|
||
"name": "python3"
|
||
},
|
||
"language_info": {
|
||
"codemirror_mode": {
|
||
"name": "ipython",
|
||
"version": 3
|
||
},
|
||
"file_extension": ".py",
|
||
"mimetype": "text/x-python",
|
||
"name": "python",
|
||
"nbconvert_exporter": "python",
|
||
"pygments_lexer": "ipython3",
|
||
"version": "3.10.12"
|
||
}
|
||
},
|
||
"nbformat": 4,
|
||
"nbformat_minor": 5
|
||
}
|