יצירת טבלה חדשה

שימו לב: על מנת להריץ את התאים ב-Live Code, יש לייבא תחילה את ספרית pandas ע”י הרצת השורת הראשונה בתא למטה.
בנוסף, נגביל את הדפסת הטבלאות לחמש שורות לכל היותר ע”י שורת הקוד השניה.

import pandas as pd
pd.options.display.max_rows=5
import utils.load_auxilary_files # This will load the files used for this notebook

['orders_4_2024.csv', 'sunday.txt', 'witcher_2.csv', 'out.txt', 'evil_morty_change_noised.png', 'StudentsGrades.csv', 'dog.png', 'notebook_resources.zip', 'infile1.txt', 'erosion_2.png', 'dialation_2.png', 'ship.png', 'foods.txt', 'ex1.csv', 'ex2.csv', 'countries-of-the-world.csv', 'koala.png', 'orders_2_2024.csv', 'infile2.txt', 'monday.txt', 'dialation.png', '__MACOSX', 'baby.png', 'evil_morty_change_3.png', 'evil_morty_segmentation.png', 'woman_noised.png', 'orders_3_2024.csv', 'evil_morty_change.png', 'erosion.png', 'evil_morty_1.png', 'dog_noised.png', 'witcher_1.csv', 'products2.csv']

יצירת טבלה חדשה#

הערה

במהלך כל נושא זה, נדפיס את הטבלאות באמצעות הפקודה display המציגה גרסה מעוצבת של הטבלה. פקודה זו זמינה רק במחברות jupyter.

כדי להדפיס טבלה בעורך הקוד שלכם, השתמשו בפקודה print.

כפי שציינו ביחידה הקודמת, הטיפוס DataFrame הוא מעין “הכלאה” בין רשימות ומילונים. לכן, קיימות מספר דרכים להעביר קלט המורכב מרשימות ומילונים על מנת לאתחל אובייקט DataFrame חדש. נדגים פה ארבע דרכים:

1. מילון של רשימות#

במקרה זה, כל זוג מפתח–ערך במילון משמש לבניית עמודה אחת ב־DataFrame: המפתח הוא שם העמודה, והערך הוא רשימה של כל התאים בעמודה זו לפי סדרם.

data = {'Name': ['Rick', 'Morty'], 'Age': [70, 14]}
df = pd.DataFrame(data)
display(df)

	Name	Age
0	Rick	70
1	Morty	14

שימו לב

המספרים המודגשים בצד ימין הם שמות השורות, ואינן חלק מהערכים בטבלה.

בברירת מחדל, שמות השורות, הוא מאותחלות אוטומטית לפי סדרת מספרים שלמים המתחילה מ0.

נסו לאתחל את שמות השורות בעצמכם באמצעות הפרמטר index

שימו לב כי כל הרשימות חייבות להיות באותו אורך, אחרת תתקבל שגיאה:

data = {'Profession': ['Scientist', 'Kid'], 'Age': [70, 14, 17]}
df = pd.DataFrame(data)

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
Cell In[3], line 2
      1 data = {'Profession': ['Scientist', 'Kid'], 'Age': [70, 14, 17]}
----> 2 df = pd.DataFrame(data)

File /opt/hostedtoolcache/Python/3.11.15/x64/lib/python3.11/site-packages/pandas/core/frame.py:769, in DataFrame.__init__(self, data, index, columns, dtype, copy)
    765             )
    766 
    767         elif isinstance(data, dict):
    768             # GH#38939 de facto copy defaults to False only in non-dict cases
--> 769             mgr = dict_to_mgr(data, index, columns, dtype=dtype, copy=copy)
    770         elif isinstance(data, ma.MaskedArray):
    771             from numpy.ma import mrecords
    772 

File /opt/hostedtoolcache/Python/3.11.15/x64/lib/python3.11/site-packages/pandas/core/internals/construction.py:460, in dict_to_mgr(data, index, columns, dtype, copy)
    441 if copy:
    442     # We only need to copy arrays that will not get consolidated, i.e.
    443     #  only EA arrays
    444     arrays = [
    445         (
    446             x.copy()
   (...)    457         for x in arrays
    458     ]
--> 460 return arrays_to_mgr(arrays, columns, index, dtype=dtype, consolidate=copy)

File /opt/hostedtoolcache/Python/3.11.15/x64/lib/python3.11/site-packages/pandas/core/internals/construction.py:113, in arrays_to_mgr(arrays, columns, index, dtype, verify_integrity, consolidate)
    110 if verify_integrity:
    111     # figure out the index, if necessary
    112     if index is None:
--> 113         index = _extract_index(arrays)
    114     else:
    115         index = ensure_index(index)

File /opt/hostedtoolcache/Python/3.11.15/x64/lib/python3.11/site-packages/pandas/core/internals/construction.py:643, in _extract_index(data)
    641 if have_raw_arrays:
    642     if len(raw_lengths) > 1:
--> 643         raise ValueError("All arrays must be of the same length")
    645     if have_dicts:
    646         raise ValueError(
    647             "Mixing dicts with non-Series may lead to ambiguous ordering."
    648         )

ValueError: All arrays must be of the same length

2. רשימה של מילונים#

כאן כל מילון מייצג שורה בודדת, וזוג מפתח-ערך מייצג תא בודד: המפתח הוא כותרת העמודה הערך הוא מה שנמצא בתא.

data = [{'Name': 'Rick', 'Age': 70}, {'Name': 'Morty', 'Age': 14}]
df = pd.DataFrame(data)
display(df)

	Name	Age
0	Rick	70
1	Morty	14

חשבו

מה יקרה אם יהיו מפתחות שיופיעו רק בחלק מהמילונים? בדקו את השערתכם.

# Write your code here

3. רשימה של רשימות#

כאן כל רשימה מקוננות מייצגת שורה בטבלה. בנוסף ניתן להעביר עוד 2 ארגומנטים: index וcolumns, המייצגים את שמות השורות והעמודות בהתאמה.

ages_by_name = [['Rick', 'Morty'], [70, 14]]
df = pd.DataFrame(ages_by_name, columns=['Name', 'Age'], index=["Row 1", "Row2"])
display(df)

	Name	Age
Row 1	Rick	Morty
Row2	70	14

4. טעינת טבלה מקובץ CSV (או Comma Seperated Values)#

טקסט המופיע למטה בסגול מציין קטעים המופיעים בסרטון

ניתן להיעזר בו כדי לחזור על התכנים או לעיין בהם שוב.

קובץ CSV הוא קובץ טקסט פשוט שבו הנתונים נשמרים בצורה טבלאית, כך שכל שורה מייצגת רשומה חדשה וכל ערך בתוך השורה מופרד באמצעות פסיק.
במילים אחרות, מדובר בפורמט שבו פסיקים משמשים בתור “מפרידי עמודות”, ושורות חדשות מופרדות באמצעות מעבר שורה (\n).
לדוגמא, אם נרצה לשמור ציונים של סטודנטים, נכתוב תחילה את שמות העמודות (כותרות), ולאחר מכן כל שורה תכלול את שם הסטודנט ואת ציוניו.

        
        Name,Programming,Marine Biology,Stellar Cartography    
        Yael,50,56,70    
        Nadav,61,77,75    

היתרון המרכזי של CSV הוא הפשטות והנגישות שלו: מדובר בקובץ טקסט קריא שניתן לפתוח בעורך טקסט רגיל, לטעון בקלות לתוך תוכנות כמו Excel, או לעבד באמצעות שפות תכנות כמו פייתון. בזכות הפורמט הישיר והסטנדרטי, CSV הוא אחד הכלים הנפוצים ביותר להעברת נתונים בין מערכות שונות.

לדוגמא, תוכן הקובץ הבא:

    Name,Programming,Marine Biology,Stellar Cartography    
    Yael,50,56,70    
    Nadav,61,77,75    

מייצג את הטבלה הבאה:

Name	Programming	Marine Biology	Stellar Cartography
Yael	50	56	70
Nadav	61	77	75

כך יראה תוכן הקובץ בעורך טקסט פשוט:

כך יראה הקובץ באקסל:

כדי לטעון קובץ CSV מנתיב מסוים (לדוגמא, files/StudentsGrades.csv) למשתנה מטיפוס DataFrame, נשתמש בפונקציה read_csv של pandas:

inputFileName = "files/StudentsGrades.csv"
df = pd.read_csv(inputFileName)
display(df)

	Name	Programming	Marine Biology	Stellar Cartography	Math	History	Planet Survival	Art
0	Yael	50	56	70	60	87	65	91
1	Nadav	61	77	75	75	63	52	88
...	...	...	...	...	...	...	...	...
11	Tom	98	76	98	100	98	92	80
12	Adi	76	87	34	90	88	84	70

13 rows × 8 columns