مصاحبه - هیوادار

چالش ORM جنگو – spanning multivalued relationship

در رابطه های ManyToMany یا OneToMany استفاده کردن از spanning داخل filter به model دیگر این سوال رو ایجاد میکنه که هر دو شرط باید روی یک آبجکت اجرا شه یا هر کدام از شرط ها جدا؟ کد زیر توی مستندات جنگو روشن این موضوع رو نشون داده:

>>> from datetime import date
>>> beatles = Blog.objects.create(name='Beatles Blog')
>>> pop = Blog.objects.create(name='Pop Music Blog')
>>> Entry.objects.create(
...     blog=beatles,
...     headline='New Lennon Biography',
...     pub_date=date(2008, 6, 1),
... )
&lt;Entry: New Lennon Biography>
>>> Entry.objects.create(
...     blog=beatles,
...     headline='New Lennon Biography in Paperback',
...     pub_date=date(2009, 6, 1),
... )
&lt;Entry: New Lennon Biography in Paperback>
>>> Entry.objects.create(
...     blog=pop,
...     headline='Best Albums of 2008',
...     pub_date=date(2008, 12, 15),
... )
&lt;Entry: Best Albums of 2008>
>>> Entry.objects.create(
...     blog=pop,
...     headline='Lennon Would Have Loved Hip Hop',
...     pub_date=date(2020, 4, 1),
... )
&lt;Entry: Lennon Would Have Loved Hip Hop>
>>> Blog.objects.filter(
...     entry__headline__contains='Lennon',
...     entry__pub_date__year=2008,
... )
&lt;QuerySet [&lt;Blog: Beatles Blog>]>
>>> Blog.objects.filter(
...     entry__headline__contains='Lennon',
... ).filter(
...     entry__pub_date__year=2008,
... )
&lt;QuerySet [&lt;Blog: Beatles Blog>, &lt;Blog: Beatles Blog>, &lt;Blog: Pop Music Blog]>

>>> from datetime import date

>>> beatles = Blog.objects.create(name='Beatles Blog')

>>> pop = Blog.objects.create(name='Pop Music Blog')

>>> Entry.objects.create(

... blog=beatles,

... headline='New Lennon Biography',

... pub_date=date(2008, 6, 1),

... )

<Entry: New Lennon Biography>

>>> Entry.objects.create(

... blog=beatles,

... headline='New Lennon Biography in Paperback',

... pub_date=date(2009, 6, 1),

... )

<Entry: New Lennon Biography in Paperback>

>>> Entry.objects.create(

... blog=pop,

... headline='Best Albums of 2008',

... pub_date=date(2008, 12, 15),

... )

<Entry: Best Albums of 2008>

>>> Entry.objects.create(

... blog=pop,

... headline='Lennon Would Have Loved Hip Hop',

... pub_date=date(2020, 4, 1),

... )

<Entry: Lennon Would Have Loved Hip Hop>

>>> Blog.objects.filter(

... entry__headline__contains='Lennon',

... entry__pub_date__year=2008,

... )

>>> Blog.objects.filter(

... entry__headline__contains='Lennon',

... ).filter(

... entry__pub_date__year=2008,

... )

تکه کد ORM جنگو – Queryset slicing – سوال مصاحبه

آیا ORM جنگو با اجرای کد زیر به دیتابیس query میزند؟ اگر آره چند Hit دیتابیس داریم؟

Student.objects.all()[:5]

Student.objects.all(:8:2)

Student.objects.all()[:5]

Student.objects.all(:8:2)

ORM جنگو lazy است یعنی در هر حالتی به دیتابیس دسترسی نمیگیرد مگر اینکه بخواهد queryset را کامل از دیتابیس بگیرد. درحالتی که از slicing پایتون برای یک queryset استفاده می کنیم ORM یک queryset جدید برمیگردونه و اون رو اجرا نمیکنه. یعنی توی خط اول به دیتابیس Hit نداریم. قاعدتا باید توی خط دوم هم همین باشه اما slicing پایتون با step استثنا هست و توی خط دوم یه Hit به دیتابیس داریم.

تکه کد – سوال مصاحبه

کدهای زیر با هم چه تفاوتی دارند؟

if my_queryset.exists():
	print("at least one user found")

if my_queryset:
	print("at least one user found")

if my_queryset.exists():

print("at least one user found")

if my_queryset:

print("at least one user found")

در شرط اول QuerySet اجرا نشده و فقط یک دستور از دیتابیس گرفته شده که آیا این queryset عضوی دارد یا خیر. جنگو این بررسی رو در بهینه ترین و کوتاه ترین حالت انجام میده و از حالت دوم که queryset رو اجرا کرده کمی سریع تره. نکته اینه که در حالتی که میدونیم کهم در هر صورت در ادامه برنامه قراره my_queryset رو اجرا کنیم (چه عضو داشته باشه چه نه) بهتره که از حالت دوم استفاده کنیم که دیگه یک بار اضافه از exists استفاده نکرده باشیم. چون همینطور که میدونیم اگر my_queryset رو از دیتابیس بیگیریم دفعات بعدی دیگه از دیتابیس نمیگیریم و cache میشه.

همین داستان رو برای تابع contains() هم داریم.

مشکل N+1 – سوال مصاحبه (دوم)

کد زیر چند Hit دیتابیس دارد؟

>>> pizzas = Pizza.objects.prefetch_related('toppings')
>>> [list(pizza.toppings.filter(spicy=True)) for pizza in pizzas]

1 2	>>> pizzas = Pizza.objects.prefetch_related('toppings') >>> [list(pizza.toppings.filter(spicy=True)) for pizza in pizzas]

همچنان N+2!!!

حتی با وجود اینکه از prefetch_related استفاده شده است دوباره در داخل حلقه به N دسترسی مجدد به دیتابیس وجود دارد. چرا که prefetch_related بالا برای Pizaa.objects.all بوده ولی پایین از filter استفاده کردیم که ORM جنگو دسترسی بالایی را در نظر نمیگیرد و دوباره query میزند. اتفاقا بدتره چرا که یه query بالا هم اضافی هست. راه حل زیر درست میشه:

Pizza.objects.filter(spicy=True).prefetch_related('toppings')

1	Pizza.objects.filter(spicy=True).prefetch_related('toppings')

یا

Pizza.objects.prefetch_related('toppings').filter(spicy=True)

1	Pizza.objects.prefetch_related('toppings').filter(spicy=True)

مثال پایتون – تکه کد – سوال مصاحبه

توی یه مصاحبه خروجی یک تکه کد پایتون از من خواسته شد و تحلیلش. من اون کد رو کامل تر کردم که شده کد زیر:

def test(l1, c):
    
    l1.extend([2, 3, 4])
    c += 1
    
    print(l1)
    print(c)
    print("---------------------")
    
    
if __name__ == "__main__":
    a = [1]
    c = 1
    
    test(a, c)
    test(a, c)

def test(l1, c):

l1.extend([2, 3, 4])

c += 1

print(l1)

print(c)

print("---------------------")

if __name__ == "__main__":

a = [1]

c = 1

test(a, c)

خوب خروجی کد زیر:

PS C:\code\testing code> python .\main.py
[1, 2, 3, 4]
2
---------------------
[1, 2, 3, 4, 2, 3, 4]
2
---------------------

PS C:\code\testing code> python .\main.py

[1, 2, 3, 4]

---------------------

[1, 2, 3, 4, 2, 3, 4]

---------------------

خروجی کد یه جوریه که انگار پایتون شیشه زده :)))) حالا چرا؟

چند تا بحثه:

1.توابع توی پایتون خود آبجکت رو به عنوان پارامتر میگیرن نه کپی اونها رو:

ینی چی؟ وقتی ما به تابع test یه لیست و یه integer پاس دادیم، کپی اون لیست و integer به تابع داده نشده بلکه خود اون آبکت داده شده یعنی reference اون داده شده پس اگه توی تابع test اون پارامتر رو تغییر بدی خود اون آبجکت رو تغییر دادی. به بیان ساده تر اون l1 همون a هست نه کپی اون. انگار توی خانه حافظه اون لیست یه برچست جدید روش خورده و حالا با اون برچست جدید صداش میزنیم توی test. پس پارامترها توی توابع پایتون اینجوری پاس داده میشن.

2.توی پایتون list یک mutable هست و integer یک immutable

سوالی که پیش میاد اینه که چرا c تغییر نکرد پس؟ مگه اونجا هم دقیقا همون c را ندادیم به test؟ چرا اون c که توی test هست دقیقا همونی هست که توی main هست اما بعد از اینکه یه مقدار به c اضافه کردیم c+=1 دیگه از اونجا به بعد همون c قبلی نیست. این یه بحث جدیده به اسم mutable و immutable بودن توی پایتون.

توی پایتون list یک mutable هست یعنی قابل تغییره اما یک integer یک immutable یعنی غیرقابل تغییر است بنابراین وقتی c+=1 میکنیم اون c قبلی که برابر با 1 بود از حافظه پاک میشه و یه مقدار جدید توی جای جدیدی از حافظه ساخته میشه با مقدار 2 و به c وصل میشه (توی این لینک توضیحش هست)

یه مثال جالب توی پایتون – تکه کد

خروجی تکه کد زیر چیه؟

a = 1
print(id(a))

a+=1
print(id(a))

a = 1

print(id(a))

a+=1

print(id(a))

خروجی این کد 2 عدده که با هم متفاوت هستن یعنی توی پایتون اگر یه متغیر integer یا string تغییر کنن (مثلا یه واحد بهشون اضافه بشه یا یه کاراکترش حذف بشه) دیگه اون متغیر قبلی نیست و عملا اون قسمت حافظه که متغیر قبلی گرفته آزاد میشه و یه قسمت جدید allocate میشه و مقدار جدید توی اون ذخیره میشه و به a بایند میشه. اینه که گفته میشه توی پایتون integer و string ها immutable هستن.

توی مثال بالا وقتی a+=1 صدا اجرا میشه متغیر قبلی پاک میشه و یه متغیر جدید توی حافظه ساخته میشه با آدرس جدید و مقدار جدید ینی 2 بهش داده میشه و این خانه حافظه به a داده میشه.

حالا کد زیر چطور میشه؟

>>> c = [1]
>>> id(c)
2309253640896
>>> c.extend([2, 3])
>>> id(c)
2309253640896
>>>

>>> c = [1]

>>> id(c)

2309253640896

>>> c.extend([2, 3])

>>> id(c)

2309253640896

>>>

خروجی این کد همینطور که میبینید با قبلی فرق داره این بار خروجی 1 عدده. چون list توی پایتون mutable هست و وقتی یک لیست رو تغییر میدیم دیگه لیست جدید ساخته نمیشه همون قبلی توی همون جای قبلی حافظه تغییر کرده.

لینک های بدرد بخور:

لینک 1

لینک 2

Coupling یا وابستگی -سوال مصاحبه

توی یک مصاحبه سوال زیر از من پرسیده شد که به درستی نتونستم جواب بدم ولی بعدا توی مبحث Refactoring جوابش رو پیدا کردم.

سوال:

فرض کن دوتا App توی جنگو داری که به هم مرتبط هستند. مثلا اگر یک متد توی App اول اجرا میشه بعدش یک متد یا پارامتر توی App دوم رو استفاده میکنه. آیا این از دید مهندسی نرم افزار مشکل داره؟ اگر داره راه حل چیه؟

جواب:

توی بحث Refactoring یکی از مواردی که باید بهش توجه بشه Bad smell های کد هست که یکی از اونها coupling زیاد توی کد هست. یعنی ارتباط زیاد کلاسهای متفاوت با همدیگر به صورتی که مدیریت و تغییر کد را سخت کند.

توی این لینک توضیح داده که اگر یک متد از یک کلاس از دیتای کلاس دیگه استفاده کنه بهش Featuer Envy میگن.

این اتفاق در کل از نظر برنامه نویسی شی گرا غلطه. یک متد یا پارامتر توی یک کلاس از نظر مفهومی وجودش توی اون کلاس معنی داره و باید از پارامترهای داخل همون کلاس استفاده کنه. اگه یک متد از پارامترهای کلاس دیگه ای داره استفاده میکنه حتما از نظر مفهومی به اون کلاس دیگه تعلق داره یا حداقلش اینه که پارامترهایی که توی کلاس دوم تعریف شده باید توی کلاس خود متد تعریف میشد. بنابراین از نظر مهندسی نرم افزار ایراد داره و برای حل این مشکل یا باید متد رو به اونیکی کلاس ببریم یا باید متد رو جوری تغییر بدیم که دیگه اون کلاس رو صدا نزنه مثلا شاید بخشی از کد داخل بلاک متد باید بره توی کلاس دیگه و به عنوان متد اونیکی کلاس تعریف شه.

این یک پاسخ کلی بود در مورد App های جنگو هم داستان همینه. هر App از نظر مفهومی باید جدا از App های دیگه باشه و هرچی لازم داره توی خود App موجود باشه. اما توی مستندات جنگو یه نکته ای گفته شده که نباید فراموش بشه، رابطه 2 تا مدل که هر کدوم توی یک App جداگانه هستند ممکنه و ایرادی نداره که البته از نظر مفهموی این موردی نداره مثل:

from django.db import models
from geography.models import ZipCode


class Restaurant(models.Model):
    # ...
    zip_code = models.ForeignKey(
        ZipCode,
        on_delete=models.SET_NULL,
        blank=True,
        null=True,
    )

from django.db import models

from geography.models import ZipCode

class Restaurant(models.Model):

# ...

zip_code = models.ForeignKey(

ZipCode,

on_delete=models.SET_NULL,

blank=True,

null=True,

)

لینک زیر راه حل هایی که نوشتم رو بهتر توضیح داده

لینک 1

لینک 2

آیا باید فایل را در دیتابیس ذخیره کرد؟ اگر آره چه دیتابیسی؟

یه سوالی که توی طراحی نرم افزار پیش میاد اینه که اگر قرار باشه وب اپلیکیشن فایل آپلود کنه و ذخیره کنه باید توی دیتابیس ذخیره بشه یا نه در یک دایرکتوری بمونه؟ اگر در یک دایرکتوری بمونه بعدا که یکی قرار شد از توی نرم افزار اونو دانلود کنه بک اند نرم افزار چطور باید اونو پیدا کنه؟ اگر فایل حجیم بود داستان چیه؟ اگر قراره فایل ها توی دیتابیس ذخیره بشن از چه دیتابیسی باید استفاده بشه؟ MySQL, Postgresql, MongoDB یا چی؟

از آخر بگم. بهترین راه حل برای ذخیره سازی فایل توی یک وب اپلیکیشن معمولی اینه که فایل رو توی دیتابیس ذخیره نکنیم و مسیر آپلود فایلها رو توی دیتابیس ذخیره کنیم مثلا یه فولدر /doc کنار پروژه هست که وقتی فایل رو میخایم دانلود کنیم بک اند URLROOT رو به اول این دایرکتوری میچسبونه و فایل رو دانلود میکنید. توضیحات خوبی توی این لینک هست.

حالا فرض کنید میخاید فایل رو توی دیتابیس به صورت بایناری ذخیره کنید. نیازمندی پروژه اینه که باید ذخیره بشه که این یه سری pros and cons داره:

چرا باید فایل توی دیتابیس ذخیره بشه؟

1.اگر به صورت دوره ای از دیتابیس بک آپ گرفته بشه فایلها هم توش هست

2.اگر توی دیتابیس ذخیره نشه و لینک دیتابیس پاک شه فایل ها بی صاحب orphaned میشن

3.اگر توی دیتابیس ذخیره نشه آپدیت شدن داکیومنت ها سخت میشه و البته با ذخیره سازی توی دیتابیس ACID هم هست

چرا نباید توی دیتابیس ذخیره بشن؟ به دلایل زیاد

1.اگر حجم فایل از حدی زیادتر بشه دیگه باید بریم سمت دیتابیس های خاص چون هر دیتابیس ساپورت نمیکنه

2.حجم دیتابیس زیاد میشه و توی پرفورمنس query ها به شدت تاثیر میزاره

3.ذخیره سازی فایل توی دیتابیس به صورت بایناری و استفاده از دیتابیس های خاص به دانش بیشتری احتیاج داره و البته زمان توسعه زیاد میشه

جزئیات بیشتر رو توی این لینک ببینین

از چه دیتابیسی باید استفاده کنیم؟

MongoDB دیتابیس Non-relational و NoSQL هست. Postgres و MySQL دیتابیس Relational پس اگر روابط بین دیتاها زیاده و در یک کلام جدولهاتون با هم رابطه دارن سمت MongoDB نرید. اگر یه اپلیکیشن ساده دارین که کارش ذخیره سازی فایلهای خیلی حجیم و دانلود اونهاست سمت Mongo برید. البته اونجا باید از افزونه GridFS هم استفاده کنید که جزئیات توی این لینک هست.

چرا نباید سمت Mongo بریم؟

1.پیاده سازی سخت و پیچیده و زمانبر

2.درصورت جدولهای رابطه ای

3.درصورتی که query هایی مثل JOIN داریم

4.در صورت جدولهای normalize شده

و… لینک های زیر هم دلایل بیشتری آوردن

لینک 1

لینک 2

تفاوت git merge و git rebase

تفاوت git rebase و git merge در این است که در git rebase هیچ تاریخچه ای از commit ها در branch فرعی وجود ندارد، در واقع آن commit ها پاک شده و هر کدام با id جدید بر روی branch اصلی (آخرین آپدیت) apply میشود. این به چه دردی می خوره:

فرض کنید که از branch اصلی یک branch میگیریم و روی آن تغییراتی میدهیم همزمان شخصی دیگر branch اصلی را تغییر داده و ما متوجه میشویم اولا بهتر است تغییرات ما بعد از آخرین آپدیت branch اصلی اعمال شود ثانیا تاریخچه commit های ما پیچیدگی اضافه میکند و توضیحات اضافی است و بهتر است مستقیم بر روی branch اصلی (آخرین آپدیت) اعمال شود. در این حالت بهتر است از git rebase استفاده کنیم.

در این لینک این تفاوت با یک مثال توضیح داده شده است

مشکل N+1 – سوال مصاحبه

N+1 query problem وقتی است که برنامه دیتایی که با یک query می توانست به دست بیاره رو N بار بیشتر query بزنه. طبیعتا مشکل پرفورمنسیه.

توی مدیوم یه مقاله هست که این مشکل رو با یک مثال توضیح داده که باعث میشه خیلی خوب مشکل N+1 query رو بفهمیم.

فرض کنید که میخاید کیک درست کنید. یخچال توی آشپزخونه نیست و توی اتاق زیر شیروانیه بنابراین برای برداشتن هر چیزی از تو یخچال باید پله ها رو بالا بریم. شما توی آشپزخونه هستید ولی کتاب شیرینی پزی توی اتاق خوابه.

اول میرید از اتاق خواب کتاب آشپزی رو میارید به آشپزخونه بعد میبینید گفته که به 200 گرم آرد نیاز دارید. میرید اتاق زیرشیروانی و آرد رو میارید. دستور پخت نوشته 3 عدد تخم مرغ، دوباره میرید اتاق زیرشیروانی و 3 تا تخم مرغ میارید. دوباره میبینید که نوشته یه لیوان شیر و ….

میبینید که با این روش شما N بار اضافه رفتید بالا در حالی که همون دفعه اول که رفتید کتاب آشپزی رو بیارد بهتر بود همه وسایل مورد نیاز رو هم بیارید.

حالا یه مثال از ORM جنگو ببینیم که این مشکل رو چطور حل میکنه.

فرض کنید که یه مدل Post داریم که هر Post یه Author داره و طبیعتا هر Author میتونه چند تا Post داشته باشه. رابطه 1->N هست. حالا میخایم پست ها و نویسنده هاشون رو چاپ کنیم.

posts = Post.objects.order_by("created_on")
for post in posts:
    print(post.title, "written by", post.author)

posts = Post.objects.order_by("created_on")

for post in posts:

print(post.title, "written by", post.author)

توی کد بالا مشکل N+1 وجود داره.

توی خط اول چند query به دیتابیس فرستاده میشه؟ هیچ به دلیل اینکه ORM جنگو Lazy هست (تا زمان درخواست داده query ارسال نمیشه)

توی خط دوم که توی حلقه درخواست داده شده یک query به دیتابیس ارسال میشه و لیست پست ها رو میگیره و میریزه توی queryset. توی قسمت print وقتی title رو میخات چاپ کنه دیگه query زده نمیشه چون title یکی از property های Post هست که قبلا گرفته شده ولی وقتی میخات author رو چاپ کنه دوباره یک query به دیتابیس زده میشه که Author مربوط به اون پست رو بگیره (چون دو تا model جدا با رابطه 1->N هستن) بنابراین توی هر iteration از حلقه یک query دیگه زده میشه و این پرهزینه است و بهش میگن N+1 problem.

برای حل این مشکل باید برای پست ها Author ها رو هم یکجا با یک query بگیریم. برای حل این موضوع باید روی دو تا model یک join زده بشه.

ORM جنگو این مشکل رو با select_related() و prefetch_related() حل کرده.

select_related()

posts = Post.objects.order_by("created_on").select_related("author")
for post in posts:
    print(post.title, "written by", post.author.name)

posts = Post.objects.order_by("created_on").select_related("author")

for post in posts:

print(post.title, "written by", post.author.name)

prefetch_related()

posts = Post.objects.order_by("created_on").prefetch_related("author")
for post in posts:
    print(post.title, "written by", post.author.name)

posts = Post.objects.order_by("created_on").prefetch_related("author")

for post in posts:

print(post.title, "written by", post.author.name)

توی دو تا کد بالا فقط 1 query به دیتابیس زده میشه.

فرق select_related و prefetch_related چیه؟

select_related به یک Join تبدیل شده و به دیتابیس ارسال میشود و برای مدل هایی که ارتباط 1->N یا one to one دارند استفاده میشود اما prefetch_related دو داده را گرفته و به صورت پایتونی join میزنه در ضمن برای رابطه های چند به چند یا Generic استفاده میشه.

مثالی که توی مستندات جنگو هست:

from django.utils import timezone

# Find all the blogs with entries scheduled to be published in the future.
blogs = set()

for e in Entry.objects.filter(pub_date__gt=timezone.now()).select_related("blog"):
    # Without select_related(), this would make a database query for each
    # loop iteration in order to fetch the related blog for each entry.
    blogs.add(e.blog)

from django.utils import timezone

# Find all the blogs with entries scheduled to be published in the future.

blogs = set()

for e in Entry.objects.filter(pub_date__gt=timezone.now()).select_related("blog"):

# Without select_related(), this would make a database query for each

# loop iteration in order to fetch the related blog for each entry.

blogs.add(e.blog)

مثال زیبای بعدی

from django.db import models


class City(models.Model):
    # ...
    pass


class Person(models.Model):
    # ...
    hometown = models.ForeignKey(
        City,
        on_delete=models.SET_NULL,
        blank=True,
        null=True,
    )


class Book(models.Model):
    # ...
    author = models.ForeignKey(Person, on_delete=models.CASCADE)

# Hits the database with joins to the author and hometown tables.
b = Book.objects.select_related("author__hometown").get(id=4)
p = b.author  # Doesn't hit the database.
c = p.hometown  # Doesn't hit the database.

# Without select_related()...
b = Book.objects.get(id=4)  # Hits the database.
p = b.author  # Hits the database.
c = p.hometown  # Hits the database.

from django.db import models

class City(models.Model):

# ...

pass

class Person(models.Model):

# ...

hometown = models.ForeignKey(

City,

on_delete=models.SET_NULL,

blank=True,

null=True,

)

class Book(models.Model):

# ...

author = models.ForeignKey(Person, on_delete=models.CASCADE)

# Hits the database with joins to the author and hometown tables.

b = Book.objects.select_related("author__hometown").get(id=4)

p = b.author # Doesn't hit the database.

c = p.hometown # Doesn't hit the database.

# Without select_related()...

b = Book.objects.get(id=4) # Hits the database.

p = b.author # Hits the database.

c = p.hometown # Hits the database.