פברואר 2008 – מחשבות, מחשבים, ושאר דברי בלע

29/02/200829/02/2008

גוגל אנטיליטיקס

דעתי על גוגל אנליטיקס ידועה, בקצרה:
גוגל אוספים מידע עלי ועליך כשאנחנו מסתובבים באינטרנט לתומינו, בכל מני אתרים שלא קשורים לגוגל.
איך? גוגל אנליטיקס, שמותקן בכל כך הרבה אתרים היום – מוסר לגוגל פרטים מפורטים על הגלישה שלך באתר כולל נתונים שמזהים אותך באתר.
סביר מאוד שגוגל יכולים להצליב את הזהות שלך באתר עם הזהות הגוגלית שלך (במילים אחרות – אם יש לך חשבון בגוגל, הם יכולים לדעת שאתה נכנסת לאתר מסויים שמשתמש בגוגל אנליטקס).
אני לא יודע אם גוגל באמת עושים את זה, אבל לדעתי גם אם לא – זה רק עניין של זמן עד שהם יתחילו כי זה יאפשר להם לפרסם בהתאם להיסטורית הגלישה שלך, מה שיכול להגדיל משמעותית את הרווחים שלהם.

עכשיו, לעניין.
מה דעתכם על תוסף פיירפוקס – נניח בשם גוגל אנטיליטיקס (שימו לב למשחק המילים המתוחכם), שיזהיר בצורה לא פולשנית (למשל איקון של מרגל בפינה העליונה של הדף) ברגע שאתם נכנסים לאתר שמריץ את גוגל אנליטיקס, ויאפשר גם לחסום בצורה גורפת את הדיווח של הדפדפן שלכם לגוגל?

Loading ...

28/02/200828/02/2008

Phun

דברים כאלו הם בדיוק הסיבה שאני חושב ללמוד פיזיקה.
דרך בויינג בויינג

27/02/200827/02/2008

לעזאזל עם האשכוליות

xkcd בקומיקס ענק.

26/02/200826/02/2008

Shareaza.com, המחטף

לפעמים המציאות עולה על כל דמיון.
חברת דיסקורדיה, שמקושרת למקבילה הצרפתית של RIAA (ארגון חברות ההקלטות האמריקאי) השתלטה בדרך לא ברורה על הדומיין של תוכנת שיתוף הקבצים שראזה והחלה להתחזות לצוות הפיתוח המקורי, תוך שהם משתמשים בלוגו של הפרוייקט ומציעים גרסא "מטופלת" של הקוד של הפרוייקט.
נראה שמדובר בהפרה בוטה של זכויות היוצרים של התוכנה, של הGPL ושל זכויות השימוש בלוגו של התוכנה.
משתמשים מעוצבנים הציעו בפורומים של האתר החדש לשנות את התוכנה כל שתתקוף את האתר המתחזה בבקשות HTTP (מתקפת DDOS – שלילת
שרות מבוזרת).

Make it so the real shareaza program queries their site [shareaza.com] every couple of seconds. As an individual user this won’t take much personal bandwidth. But all shareaza users worldwide put together should be enough to kill their server and they won’t really be able to do much since it will be coming from so many different IPs.

עורכי הדין של החברה הגיבו ואיימו משפטית על מנהלי הפורום וכל כל מי שיפתח מתקפת שלילת שרות כזו (אני מעריך את מאמץ הפיתוח הנדרש בכחמש דקות כולל בדיקות QA מקיפות).

This law firm represents Discordia, Ltd., the operator of the website Shareaza.com and owner of the rights in the Shareaza branded software distributed from that domain. Please be advised, that your forum contains a string of posts under the title: “suggestion to kill Shareaza.com.” Under the string, the poster, RedSquirrel offers directions for users of Shareaza software to implement a DoS that would have the effect of destroying or seriously impairing our client’s application and network. The poster OldDeath also offers a manner to illegally attack our client’s business.

Despite whatever complaints your forum’s users may have with our client’s proper and legal business activities, the type of activity promoted on your forum is illegal. Therefore, we request that you immediately remove this string of posts and any future strings of this nature. My client respects your users’ rights to express their points of view. However, the line is crossed when users begin to promote the destruction of a legitimate business (evidently based on out some misguided belief that artists and others who create music should not be fairly compensated for their efforts) via illegal or other predatory means.

If the above cited illegal activity on your site does not immediately cease and desist, our client will take all necessary action to vigorously and relentlessly protect its rights. To be clear, if this action is not immediately taken and, as result, our client’s business is harmed, we will not only pursue, locate and hold fully responsible each and every one of those who have implemented this, or any similar DoS, but also those responsible for maintaining your site and the forums.

Please confirm that the requested action is being taken immediately.

Jeffrey A. Kimmel

Meister Seelig & Fein, LLP
140 E. 45th St., 19th Fl.
New York, NY 10017
(212) 655-3578

מי שיכנס כרגע עם פיירפוקס לאתר החטוף יגלה שפיירפוקס מזהיר אותו מפני חשד לאתר מזויף.
זה תוצאה ישירה של מאמץ נוסף שמאורגן בפורום להתלונן על האתר המזוייף בגוגל, שבינתיים הצליח להכניס אותו לרשימת האתרים החשודים.

הסיפור המלא כאן.

24/02/200824/02/2008

פיירפוקס 3 בטא 3

הבטא השלישית של פיירפוקס 3 יצאה, ורשימת השיפורים די יפה.
אבל השיפור הכי משמעותי מבחינתי הוא בביצועים, הדפדפן טס ועד עכשיו לא נראה שהוא מתנפח ודולף כמו פיירפוקס 2.
אל תצפו שכל הפלאגינים יעבדו, אבל זה רק עניין של זמן.

שיפורים ששוה לשים אליהם לב הוא מנהל הסימניות החדש, שמאפשר לתייג סימניות, ומנהל רשימה אוטומטית של האתרים בהם אתם מבקרים הכי הרבה.
עוד שיפור יפה הוא כשמגדילים את הזום – תמונות גדלות עם הטקסט, מה ששומר על התסדיר של הדף.
מוזילה-לינקס פרסם סקירה מקיפה של השיפורים.

ומי שרוצה לשחק קצת עם פיירפוקס 3, אבל בלי לקלקל או להסיר את פיירפוקס 2?
אה, זה קל, אחרי שמוצאים הוראות באינטרנט :).
יוצרים פרופיל חדש עם הפיירפוקס החדש ככה:
[code]
/path/to/firefox -profilemanager -no-remote
[/code]
נניח שנקרא לו beta3test

ואחר כך כדי להפעיל את הפיירפוקס החדש מריצים את:
[code]
/path/to/firefox3 -P beta3test -no-remote &
[/code]

בצורה כזו, שני השועלים לא ידרכו אחד לשני על הזנב ויוכלו לרוץ במקביל בשדות האינטרנט הנצחיים.

23/02/200826/02/2008

FireStats 1.5.0-beta

FireStats 1.5 נכנס בשעה טובה לשלב הבטא עם השחרור של 1.5.0-בטא.
בין השינויים הגדולים:

שיפור משמעותי בביצועים של קליטת כניסות

תמיכה בIPV6

סינון לפי טווח כתובות IP ולפי כתובת URL או מפנה

שיפורים בתצוגת המפנים האחרונים

שיפורים בתמיכה במנועי חיפוש

ועוד הרבה.
דף הNew and noteworthy מכיל רשימה יותר מלאה עם תצלומי מסך, ויומן השינויים מכיל רשימה מפורטת.

22/02/200822/02/2008

מחשב על מפתח

מכירים את התחושה הזו, כשאתם עובדים על מחשב של מישהו אחר?
התחושה שאני מקבל היא שאני לא בבית.
הדואר שלי חסר, הסימניות שלי בדפדפן אינן, תוכנת המסרים המיידיים שלי לא רצה וכו'.
לא הכי נוח, מצד שני – להתקין את כל מה שצריך כדי להרגיש בבית זה בעייתי בכמה רמות:
* זה בזבוז זמן לא קטן להתקין ולהגדיר תוכנות כל פעם מחדש.
* אם תשכחו להסיר הכל, הפרטיות שלכם יכולה להפגע (איזה דואר קיבלתם, לאן גלשתם, עם מי דיברתם? כל זה עלול להשאר על המחשב, שלא לדבר על אפשרות להתחזות לכם).
* זה לא מנומס לעצב מחשב של מישהו אחר בדמותכם.

בדרך כלל אני לא נודד בין מחשבים, יש לי את המחשבים הקבועים שלי, אבל לפעמים כן.
אז מה עושים?

PortableApps.com מגיע לעזרה.
PortableApps מכיל ערמה די רצינית של תוכנות קוד פתוח שהותאמו להפעלה ישירות מדיות אכסון ניידות כמו Disk on key, נגני MP3 או כל כל דבר דומה.
כל התוכנות מאפשרות הרצה ישירות מתוך הספריה, בלי להתקין למחשב המארח, ובלי לזהם או להשאיר עקבות במחשב המארח.
מכיוון שכל הנתונים נשמרים בספריה, לא צריך להגדיר מחדש את התוכנות בכל פעם.
הפיירפוקס שלכם יזכור את היסטורית הגלישה ואת הקוקיז, הציפורעם יזכור את ההגדרות ואת הדואר וכו'.

רשימת התוכנות הנתמכות ארוכה ויפה, וכוללת את FireFox, Thunderbird, Open office, Pidgin, Audacity, FileZilla, Gimp, Putty ועוד הרבה.
למרבה הצער נראה שרק גרסאות החלונות נתמכות, אבל מכיוון שממילא רוב המחשבים הזרים מריצים חלונות זו לא כזו בעיה גדולה.

20/02/200821/06/2016

יוניקוד ודגים אחרים

הערה: יש סקר בסוף.

סקירה היסטורית
בראשית היה ASCII (האמת היא שהיו קידודים לפני ASCII אבל הם לא מעניינים אותנו).
אסקי נועד בעיקר לתווים באנגלית, הערך של 'A' הוא 65, הערך של רווח הוא 32 וכן הלאה. ASCII הוא קידוד 7 ביטים, מה שאומר שהוא משתמש ב128 אפשרויות מתוך 256 האפשרויות שנכנסות בbyte.
הבעיה עם אסקי היא שהוא לא כולל תווים של שפות אחרות – קירילית ועברית למשל.

Code page
הפתרון המתבקש הוא להשתמש בערכים 128-255 כדי לייצג את האותיות החסרות.
הבעיה היא שהרבה אנשים חשבו על הפתרון הזה בו זמנית, ומטבע הדברים היו הרבה טבלאות כאלו, לפעמים אפילו כמה בתוך אותה מדינה.
לא נחמד, כי מסמך שנכתב תוך שימוש בטבלא אחת לא הוצג כמו שצריך למי שהשתמש בטבלא אחרת.
בשלב מסויים הוגדרו סטנדרטים על ידי ארגון התקינה האמריקאי (ANSI) , שנקראו Code pages, מה שעזר למנוע הווצרות של טבלאות מיותרות חדשות.
הבעיה העיקרית עם הפתרון הזה הוא שאי אפשר לערבב שפות שמשתמשות בקודים שונים.
בנוסף, הוא נותן פתרון רק לשפות בעלות פחות מ128 אותיות.
באסיה הוגדר תקן בשם DBCS – Double byte character set, שנועד לתת פתרון לשפות האסיאתיות.
התקן הזה השתמש בקידוד באורך משתנה: חלק מהתווים היו באורך בייט אחד וחלק באורך שני בייטים, ובאופן כללי היה מבלבל למדי.

UNICODE
יוניקוד הוא שם הקוד לטבלא גדולה מאוד שמתאימה מספר לכל אות ידועה (וגם כמה משפות מומצאות כמו קלינגונית), מכיוון שיש טבלא אחת לכל השפות – אין בעיה לערבב בין שפות שונות.
מיתוס נפוץ הוא שניתן לייצג כל אות ביוניקוד בעזרת מספר בין 16 סיביות (או במילים אחרות, שיש פחות מ65536 אותיות ביוניקוד).
זה לא נכון, ולמעשה יש ביוניקוד גרסא 4.0 קרוב ל240,000 סימנים, מה שאומר שצריך לפחות 3 בתים כדי למספר את כל התווים ביוניקוד.
מחרוזת ביוניקוד היא בסך הכל סדרה של מספרים, כאשר כל מספר הוא המיקום של אות מסויימת בטבלא.
מקובל לסמן תו יוניקוד בסימן כמו U+0041, כאשר U+ אומר שזה יוניקוד והמספר שאחריו הוא קוד האות בבסיס הקסדצימלי.
לא במקרה, 128 התווים הראשונים ביוניקוד הם בדיוק אותם 128 התוים הראשונים באסקי וברוב קידודי הCode page.
המחרוזת hello ביוניקוד תכתב ככה:
U+0048 U+0065 U+006C U+006C U+006F
אם נשמור את זה, נקבל:
[code]
00 48 00 65 00 6C 00 6C 00 6F
[/code]
או
[code]
48 00 65 00 6C 00 6C 00 6F 00
[/code]
תלוי בשיטת בה אנחנו מקודדים ספרות בזכרון המחשב (Little endian או Big endian).
כדי להבחין בין שתי השיטות ישנה תוספת של התווים FE FF בתחילת מחרוזת יוניקוד (שתראה ככה או הפוך, לפי הEndianness של המכונה).
הסימון הזה נקרא Unicode Byte Order Mark, או בקיצור BOM – והוא גורם ללא מעט צרות לדפדפנים שכתובים רע.

UTF-8
באו האמריקאים ושאלו, מה אנחנו צריכים את האפסים האלו באמצע המחרוזת? הרי המחרוזת תופסת פי שתיים, והם גם מבלבלים תוכנות שמתייחסות ל0 בתור סימון לסוף המחרוזת (מקובל בC וC++).
וככה נולד UTF-8.
UTF-8 הוא שיטה לקידוד יוניקוד בקידוד בעל אורך משתנה.

כשקוראים UTF-8, מסתכלים על התו הראשון ולפי הביטים הראשונים אפשר לדעת בדיוק על כמה בתים האות הבאה יושבת.
UTF-8 הפך לסטנדרט המקובל ביותר לקידוד מחרוזות יוניקוד.

PHP ויוניקוד
PHP התמיכה של PHP 4 ו5 ביוניקוד חלקית ביותר.
מחרוזות בPHP הן בעצם סדרה של בייטים ולא יותר ולמרות שתמיד אפשר להשתמש במחרוזת PHP כדי לשמור מחרוזות בקידודים שונים – רק במקרה שהPHP קומפל עם תמיכה בmb_string יהיו לנו פונקציות מיוחדות לטיפול במחרוזות מרובות בתים.
פתרון נוסף הוא להשתמש בספריה iconv, שמוסיפה לPHP יכולות המרה של קידודים, אבל היא לא מגיעה כברירת מחדל עם PHP ומי שרוצה תוכנה שתוכל לרוץ בקלות בכל מחשב ימנע ממנה.
בPHP 6 שמתבשל לאיטו צפויה תמיכה ביוניקוד, UTF-8 וכל זה, אבל זה עדיין לא שוחרר, ואם לשפוט לפי הקצב שלוקח לשוק לאמץ את PHP5 – אז PHP6 לא יהיה רלוונטי בשנים הקרובות למי שרוצה לשחרר תוכנה שתרוץ בכל מחשב.
מכיוון שהפונקציות הסטנדרטיות בPHP תומכות בעצם רק בקידוד שבו כל אות תופסת בייט אחד, הן יכולות ליצור בעיות מעניינות.
אם תקבלו מחרוזת שמקודדת בUTF-8, נניח "שלום", ותציגו אותה בדפדפן האורך שלה יהיה 4 אותיות. אם תשתמשו בפונקצית הPHP לחישוב אורך של מחרוזות, תקבלו שהאורך שלה הוא 8 תווים, כי כל אות מקודדת בשני בתים.
אם תנסו את אותו דבר על המחרוזת המעורבת "שלום SHALOM", תקבלו שהאורך הוא 8 + 1 + 6 = 15.
לעומת זאת, אם תשתמשו בmb_strlen תקבלו את האורך הנכון.
בעיה נוספת היא בעיה של חיתוך מחרוזות UTF-8.
אם נשתמש בפונקציה wordwrap לחיתוך מחרוזות UTF8, היא עלולה לחתוך אות בין שני הבתים שלה, ובעצם להעלים אותה. לא נעים.
הפתרון שלי היה לכתוב גרסא של wordwrap שעובדת על מחרוזות UTF-8.
אפשר להבין למה מפתחי PHP מתבלבלים כשהם מתעסקים עם מחרוזות בUTF-8.

המרות וקיבועים
למרות שרוב אתרי האינטרנט בימינו השכילו לעבור לUTF-8 לקידוד של מחרוזות, עדיין יש אתרים מסויימים שמשתמשים בקידודים מבוססי Code page. למשל – מנוע החיפוש של Walla מקודד לפעמים את מילות החיפוש בכתובת בקידוד עברית 1255 (עברית חלונות), ולפעמים בקידוד UTF-8. מאוד נחמד מצידם של המפתחים לפחות להעביר את הקידוד כחלק מהכתובת (e=hew לעברית 1255 וe=utf לutf8).
לא חסרות דוגמאות אחרות, בעיקר במנועי חיפוש מקומיים (yandex.ru, mail.ru שמשתמשים בקידוד קירילי 1251) ועוד.
מכיון שאני רוצה שמילות החיפוש יוצגו כמו שצריך בFireStats, צריך להמיר את הקידודים האלו לUTF-8.
הבעיה היא שכאמור – אין תמיכה מובטחת בiconv שמאפשר המרות כאלו, ולכן נאלצתי לכתוב בעצמי ספריית המרות קטנה מקידודי codepage כלשהם לקידוד UTF8. הספריה מסתמכת על טבלאות המרה שאפשר להשיג באתר הראשי של יוניקוד.
הרעיון של הספריה הוא להמיר באמצעות הטבלא את המחרוזת ליוניקוד, ואז לקודד אותה לUTF8.

וזו האגדה על אסקי יוניקוד וUTF-8.

Loading ...

קריאה נוספת

Joel on software במאמר מצויין על יוניקוד
מצגת על השרדות עם UTF-8
שאלות נפוצות על יוניקוד וUTF-8 בלינוקס ויוניקס
Unicode Introduction and Resources

13/02/2008

קצרים

השרת שמריץ את הבלוג ואת firestats.cc היה למטה במשך 24 שעות.
הבעיה התחילה בנסיון לטפל במהירות בחור האבטחה שהתגלה בלינוקס 2.6 שמאפשר למשתמשים מקומיים רגילים לקבל בקלות גישת root בלינוקס 2.6 שקומפל עם מודול מסויים (שכלול כברירת מחדל בהרבה מאוד הפצות).
הנסיון הסתבך, והיה צריך שאחד ממנהלי המערכת יגיע פיזית למתקן האירוח של השרת, ובגלל זה לקח כל כך הרבה זמן לפתור את הבעיה.

קניתי אוטו, פיג'ו 206 XS, שלוש דלתות עם גג שמש.
כדי להשלים את חויית הנסיעה, הזמנתי נגן MP3 לרכב שתומך בUSB, כניסת Aux דיבורית Bluetooth ועוד.
מקווה לא להתאכזב כשהוא יגיע.

בהמשך לשאלון הדיוידי מהפוסט הקודם, החלטתי לשמוע בעצת העם ולוותר על דיוידי.
במקום, הזמנתי צורב DVD של Asus (הפרש המחירים מכונן DVD רגיל הוא כל כך נמוך שאין שום הגיון בקניית כונן שלא מסוגל לצרוב).
על הדרך הזמנתי עוד כונן קשיח, Seagate Barracuda 500GB SATA II‎ ST3500320AS 32MB ב600 שקל (שזה קצת יותר משקל לג'יגה, מי היה מאמין).

הפוסט המשעשע על הנוסחא לשלום עם איראן מעורר עניין מחודש פה ופה.
נראה שיש גם כמה תגובות חדשות מאיראן 🙂

09/02/200809/02/2008

DVD quest

הDVD שלי שבק לפני איזה שנה שנתיים, ולא ממש הרגשתי צורך לקנות אחר.
עכשיו – קיבלתי במתנה מאחותי את Futurama – Bender's big score, ופתאום אני צריך DVD עובד.
התחלתי להסתובב בzap, ולא הצלחתי למצוא DVD במחיר סביר, שעונה על הצרכים ושאין לו חסרונות מגוחכים (אין כפתור pause בשלט? WTF?!).
בנוסף, יש בzap אינפלציה של נגני DVD שנמכרים רק בארץ.
אם תחפשו בגוגל 80% מהדגמים שמופיעים שם, תגלו שהם נמכרים רק באתרים ישראלים.
הסיבה לזה היא פשוטה:
אלו נגני מדבקה, יש יצרן של מכשירים זולים, שמוכר אותם תחת מותגים רבים ושונים ממדינה למדינה.
מה שהוא מרוויח מזה זה שאנשים שמחפשים באינטרנט מידע על הנגן ימצאו מעט מאוד מידע, ובמיוחד לא יגלו שאותו נגן בדיוק שנמכר תחת שם אחר זכה בתואר הנגן הגרוע של 2007.

אז זה מה שאני רוצה מDVD:

שינגן דיסקי DVD בצורה חלקה (כולל כאלו שנקנו בארצות הברית או באירופה).
תמיכה בDIVX
כניסת USB.
יציאת סאונד אופטית.
שלט סביר מבחינת הנדסת אנוש (כולל כפתור pause!).
שם מותג בין לאומי, לא איזה משהו שמופיע רק בשתי חנויות בארץ

יש המלצות?