Kỷ niệm 3 tháng làm AI engineer và tips xịn ^o^

Đây là 1 bài viết rất nặng về AI và về cách làm việc và nhiều từ tiếng anh ko dịch , mọi người ai dễ kích động nên out ^^
Xin chào spiderum , WandererGuy đây, hiện tại mình đang là 1 Junior AI engineer chập chững vào công ty được 3 tháng hơn , mới lên chính thức yay . 
Có 2 thứ đã từng là 1 myth đối với mình là tốt nghiệp BKHN và lên được chính thức , cuối cùng mình cũng đã đạt được nó 
Nhân 1 buổi tối ngồi trên giường để né những giải trí vô tri hay làm , mình lên spiderum để kể về trải nghiệm bản thân , thất bại và đôi chút may mắn và có thể có thành công.
Dự án X (lĩnh vực cyber, cty này cái m gì cũng làm)
Sếp: chào em,  mới vào công ty à, em làm đi,  xây cho anh 1 con AI đoán làm nhiệm vụ X nhé 
Me: ok anh 
What the fuck did i just agree, nhiệm vụ X là cái vẹo gì vậy
Do tính chất công việc nên mình sẽ ko kể chi tiết những chi tiết ở đây nhưng những cái đỡ nhạy cảm , mình sẽ kể hehe
Dự án bọn mình có 1 mảng, team 3 người làm AI , mình và 2 anh IT BK , mình là dân điện tử viễn thông trái ngành. Mỗi người có nhiệm vụ riêng làm 3 con AI khác nhau , một anh làm face recognition, 1 anh làm audio-to-text, mình làm X (cái này cần sự bảo mật hơn mấy cái kia, trong hợp đồng bảo mật ghi 10 năm sau rời cty mới được kể, lmao)
Các bạn ko cần lo về tính hợp pháp của dự án này , mình có thể nói rằng , nó còn hợp pháp hơn cả hợp pháp. Hay ít nhất đó là những gì mình tự an ủi bản thân.
AI là 1 mảng rất rộng với hầu hết các ứng dụng được xây dựng trên nền tảng deep learning
Có thể mọi người ko quan tâm , nhưng với mình , những dự án solo kiểu này , nó rất mệt nhưng đôi chút vui, đau khổ, phần lớn là đau khổ gặm nhấm dần và vui sướng khi làm được và lại đau khổ (chắc bản thân thích tự làm khổ bằng việc đặt thêm câu hỏi để cải thiện bài toán)
Dự án X , mình sẽ làm 1 mình với đề bài là hãy làm cho anh sếp 1 con AI làm được trò X này.
Thật ra gần như tất cả những gì AI làm được , những cách làm truyền thống đã làm được. Ví dụ: hoán đổi khuôn mặt trong ảnh , photoshop , cắt ghét đã làm được , nhưng giờ AI đã làm được tự động tốt hơn. (đây là lĩnh vực mình vất vả lên xuống với nó 1 năm trời để đẻ được 1 bài báo mà ko hiểu có được reviewer tiếp tục chấp nhận ko , bị reject 2 lần rồi , haizz)
Đến phần technical hơn rồi , hi vọng các bạn sẵn sàng. Mình sẽ để những thất bại , đau khổ trong này để các bạn cảm nhận được đây ko phải chatgpt bịa ra vì phần người chính là chìa khóa để ta khác so với AI.
Để làm được X , đầu tiên là mình đi survey những cách làm trên github với từ khóa liên quan , đi tìm những bài báo khoa học , và rất nhiều tip nữa mình sẽ để cuối bài viết, sau khi xác định 
2 tuần sau
Sếp: hello em , xong chưa nhỉ 
Em: em đang nghiên cứu ạ
Sếp: ok , cố lên nha em
Em: oke anh
4 tuần sau
Sếp: chào em
Em: chào anh
Em làm 1 luồng chạy demo nhé, anh đem đi chào hàng
Em: oke anh
Em: À mà lương chính thức + 1 trịu được khum anh 
Anh: Để anh hỏi sếp anh nhé, em cố gắng làm demo 
Em: Oke anh , yay 
1 trịu (lần deal lương đầu tiên thành công bằng 1 tin nhắn), shark tank tuổi gì 
Nói chung là chill và hiện tại có vẻ mình đang tự ko chill lắm .
Có 1 cái buồn cười ở làm AI với mình là 
Cái tính hữu dụng , ý nghĩa việc mình làm càng tốt và lớn , động lực và hứng thú mình làm càng nhiều. À và cả sáng tạo . kiểu tỉ lệ thuận
Nên việc ethical mình rất đề cao mặc dù các dự án mình có thể nói là 1 con dao 2 lưỡi đúng nghĩa . Dự án X mình ko nói ở đây, các bạn chỉ cần biết động lực mình khá cao, nhưng đang có xu hướng hơi fluctuate. Ví dụ lúc mình làm dự án Deep Fake viết báo khoa học . Hôm thì, sao mình lại làm cái m này, nó giúp ích gì xã hội đâu. Hôm thì, công việc mình nó hay vkl , giúp ích xã hội vkl . Hôm sau , chả hiểu nó làm cái gì cho đời , thôi xã hội tệ mình rồi nên mình tệ lại với xã hội. Hiện tại ngoài dự án X , mình đang làm thêm cả dự án Y , nói chung là cả 2 dự án tính ethical nó rất controversial , nhưng nghiêng về tốt hơn . Động lực trong mình bảo vậy , hay là do cơn đói vì chưa có lương nhỉ. 
Cái này kể được , trong bài toán X , mình nghĩ ra 1 ý tưởng để giải quyết 1 vấn đề K nhỏ đó là điền vào 1 trang web và vượt qua được mã captcha của nó , kiểu bạn vào mấy trang xổ số rồi gõ từng tuần vào tìm kiếm , lấy số giải đặc biệt rồi thỉnh thoảng có hình ảnh captcha text mà bạn cần giải để chứng minh bạn là con người. mình dùng selenium để crawl dữ liệu, fastapi để gửi thông tin đến 1 server mình thiết kế để giải mã captcha gồm 2 model , model yolov8 tách từng chữ và model VietOCR (dựa trên cấu trúc TrOCR) để nhận lại được 1 chuỗi captcha giải. Vậy là thay vì nhập tay hmm, 7000000 / 25 request per captcha = 1 số to nào đó , mình lười để tính , mình gõ lệnh  , bấm enter và máy tự chạy , dù bên web đó có vẻ thấy có thằng nào đó đang gửi 1 đống request nên cho thêm nhiều captcha và thêm throttling mechanism , 10 giây 1 request, mình lại thay đổi thuật toán và chạy multiprocess 3 script python để crawl và giải captcha liên tục . well , vậy là mình dùng AI để chứng minh với captcha mình là con người. Suỵt nhé, bên google captcha giờ chưa anti lại được AI của mình , nó mới đánh bại được cùng lắm những thuật toán computer vision kinh điển từ những năm 2015 , thời xưa rồi.
Uhm có vẻ hơi nhiều technical , nhưng đó là 1 obstacle mình gặp, và tìm hướng giải quyết khá hay , nhưng ko mới lắm hehe. . 
Có những obstacle rất rất thú vị , mà hướng giải quyết có thể tự nghĩ hoặc dùng chùa của 1 vị hảo hán coder nào đó nửa trái đất , thường là pháp sư trung hoa. 
Tip nghiên cứu và thực thi : mình rất hay theo dõi spiderum , đọc bài của Công Quách , Narcy Nguyễn, Triết olympia, etc, những cách học mọi người có chia sẻ , nó chỉ là 1 phần rất nổi của 1 tảng băng mà các bạn biết được về học . Học. Học. Học. 
Nếu chỉ là để vượt qua bài kiểm tra thì Học là thứ bạn cần . 
Các phương pháp như Space Repetition, Active Recall, Pomodoro , là những phương pháp học chắc chắn sẽ là tiền đề để các bạn bước những bước tiến cao hơn, nhưng mình nhắc lại , nó ko phải cách học duy nhất và chưa phải cách học cao cấp hơn.
Sau 4.5 năm bách khoa và 6 tháng làm việc , và hàng trăm giờ ngồi la liệt ở phúc long và các quán cafe yên tĩnh, mà người ta nhìn mình là sẽ biết ngay , mình gọi cafe đen 30k và trà nguyên bản 35k , mình ko uống cafe đen nhưng mình vẫn mua vì các bạn tự hiểu. 
Các cách học : tên cách học (các biến thể , hoặc nền tảng lý thuyết tự nghĩ ra) với vài mục đích chính : gia tăng original thought, critical think và creativity và mới nhất là practicality trong làm khoa học và sản phẩm. Cuối cùng là aesthetic and human nature.
Boredom Induce/ Embrace, (pen and paper power, wander off)
Stand on giant shoulders, (unleash potential, higher abstract obtain)
Mindmap Stream Conscious, (beyond storage, reason and deduction assist)
Researcher mindset and philosophy , (open mind and critical think, curiosity and enthusiasm, flaws point out, research gap questioning, freedom of research, linguistic shape ego, survey practice)
Higher abstract and lower abstract concept , (obtain higher abstract for creativity, first principle think intertwine, etc)
Original thought and Creativity (divergent thinking induce , theory of divergent and linear verbal and neuron connectivity, paper horizontal power, etc)
Dystopian acknowledgement , (double think , set up cycle of mind degeneration, aesthetic brutalism , dehumanize human , etc)
Outsider blessing (dumb playing, vulnerability intended expose)
và gần đây nhất , 
Depth full concentration (energy channeling flow, knowledge also a sin of distract, depth curse and blessing)
(dưới những cách học và làm việc này sẽ có những phương pháp bổ trợ mà dân nào thích nghiên cứu cách học có thể biết : first principle thinking, orccam razor, beginner mindset, etc)

mindmap bự quá ko nhét được
tặng bạn 1 mindmap mình làm về những nhà nghiên cứu ở openai
mình dùng miro.com, vẽ 1 tỷ cái mindmap trên cùng 1 tờ giấy cũng được

mình dùng miro.com, vẽ 1 tỷ cái mindmap trên cùng 1 tờ giấy cũng được
Các bạn ko cần tra mấy từ trên đâu , vì nó ko có trên mạng , mình sáng chế ra tên gọi cho chúng , lấy cảm hứng từ những bộ não thiên tài nhất , đến từ lứa nhà khoa học , nhà văn học xuất sắc nhất mà các bạn nghe tên méo biết là ai ,nhưng tra ra sẽ thấy họ giỏi vkl, khoảng 30 % lấy từ những nhà khoa học AI đang nghiên cứu ở các phòng nghiên cứu hàng đầu, Tim Brooks, cha đẻ của Sora, pix2pix , openai ; Schulman , cha đẻ chatgpt, Reinforcement learning famous optimize policy , openai; Karpathy , ex chief Tesla, casual youtuber gpt C language; Hamming , manhattan project, Hamming window; Nielsen, quantum and AI , George Orwell and Aldous Huxley (chắc các bạn spiderum biết 2 ông này) . 
Nhưng mình biết là chả ai đi đọc bài spiderum của mình nên mình cũng chả viết làm gì , những cách này mình đã sai lầm rất rất nhiều lần , lấy cảm hứng và tự viết cho mình. Nhưng yeah , sẽ chả ai đọc , so i guess i will die bitter and unknown like Franz Kafka. 
Kết bài , chả biết viết gì , đây lại là 1 bài viết chả có chủ đề sâu , nếu bạn thấy mình trên đường , hay ngoài đời , thì cũng chỉ lướt qua nhau thôi , spiderum mà, đa phần những người overthink. 
Bộ não mình nhả nhiều tiếng anh nhỉ. Mình có 1 ý tưởng là bộ não nào có tính feminine thì dễ nói đan xen  nhiều ngôn ngữ, kiểu healthy và balance vậy , đó là các bạn chưa nghe những thuyết mình tự nghĩ ra và khá buồn cười. 
Làm AI nó có cái lợi là nó rộng , mỗi tuần bạn có thể nhảy ở lĩnh vực , Visual Place Recognition , Object Detection , Object Tracking, Image classification , Image Captioning, Image Inpainting, Face swapping, Face De-Anonymization, LLMs with Embedding, Tokenization, Retrieval Augment G-gì đó quên rồi (RAG) , …
chưa kể nó còn rộng hơn nữa nếu bạn tìm : 1 cách chưa có AI + AI + paper -> bùm , những bộ óc giỏi nhất từ UC Berkeley , Tshinghua Uni, MIT , Southern gì đó ở TQ , hình như Nam Kinh , có mấy anh bạn ở đó , mình đang cần làm quen hmu hmu, mới làm quen được 1 sinh viên PhD ở Nankai Uni , china.
Thôi nổ đủ rồi.
Thôi mình quay lại nếp sống parasocial đây , bye những con ng internet. Bật mí , đây là 1 dự án cá nhân , tạo ảnh cho 1 nhân vật yêu thích , kể cả là non safe for work. Đầu tiên ta đi lấy video , film nhân vật đó , có thể record bằng obs , rồi dùng yolov8 để detect nhân vật đó ở từng frame, cắt ảnh nhân vật đó ra , rồi caption ảnh, rồi cho vào LoRA mô hình stable diffusion . train bằng gpu của vast.ai bằng tiền lương và thẻ visa. bùm . vẽ tranh . cuộc sống parasocial hoàn hảo. :<
Wander Off.