#alphago

2025-06-04

What do a baby learning to walk and AlphaGo’s legendary Move 37 have in common?
They both learn by doing — not by being told.
That’s the essence of Reinforcement Learning.

It's great to see that my article on Q-learning & Python agents was helpful to many readers and was featured in this week's Top 5 by Towards Data Science. Thanks! :blobcoffee: And make sure to check out the other four great reads too.

-> linkedin.com/pulse/whats-our-r

#Reinforcementlearning #AI #Python #DataScience #KI #alphago #google #googleai #ArtificialIntelligence

Jessica Bennetjessicabennet
2025-06-02

Did you know machine learning algorithms can teach themselves to play video games just by practicing? AI like DeepMind’s AlphaGo and OpenAI’s Dota 2 bot have even beaten top human players by learning and adapting on their own—showing how powerful and creative AI can be!

2025-05-27

What does a baby learning to walk have in common with AlphaGo’s Move 37?

Both learn by doing — not by being told.

That’s the essence of Reinforcement Learning.

In my latest article, I explain Q-learning with a bit Python and the world’s simplest game: Tic Tac Toe.

-> No neural nets.
-> Just some simple states, actions, rewards.

The result? A learning agent in under 100 lines of code.

Perfect if you are curious about how RL really works, before diving into more complex projects.

Concepts covered:
:blobcoffee: ε-greedy policy
:blobcoffee: Reward shaping
:blobcoffee: Value estimation
:blobcoffee: Exploration vs. exploitation

Read the full article on Towards Data Science → towardsdatascience.com/reinfor

#Python #ReinforcementLearning #ML #KI #Technology #AI #AlphaGo #Google #GoogleAI #DataScience #MachineLearning #Coding #Datascientist #programming #data

2025-04-07

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

habr.com/ru/companies/ruvds/ar

#Илья_Суцкевер #Ilya_Sutskever #OpenAI #10x_engineer #AlexNet #Safe_Superintelligence #ImageNet #неокогнитрон #GPU #GPGPU #CUDA #компьютерное_зрение #LeNet #Nvidia_GTX 580 #DNNResearch #Google_Brain #Алекс_Крижевски #Джеффри_Хинтон #Seq2seq #TensorFlow #AlphaGo #Томаш_Миколов #Word2vec #fewshot_learning #машина_Больцмана #сверхинтеллект #GPT #ChatGPT #ruvds_статьи

Teixiteixi
2025-03-09




»
An Introduction
1998
standard reference...cited over 75,000
...
prominent example of
victory
over best human players
2016 2017
....
recently has been the development of the chatbot
...
large language model trained in two phases ...employs a technique called
reinforcement learning from human feedback «

aka cheap labor unnamed in papers

awards.acm.org/about/2024-turi

2/2

Hacker Newsh4ckernews
2025-03-07

Reflection – AlphaGo / Gemini team building superintelligent coding agents — reflection.ai/superintelligenc

@leo I love that you keep mentioning move 37 that AlphaGo made against Lee Sedol. The most poetic thing is that Lee made a similar move in the very next game (the only one he won) that the pros thought was a mistake and that seemed to confuse AlphaGo. #go #alphago #baduk #weiqi

Pequeños y grandes pasos hacia el imperio de la inteligencia artificial

Fuente: Open Tech

Traducción de la infografía:

  • 1943 – McCullock y Pitts publican un artículo titulado Un cálculo lógico de ideas inmanentes en la actividad nerviosa, en el que proponen las bases para las redes neuronales.
  • 1950 – Turing publica Computing Machinery and Intelligence, proponiendo el Test de Turing como forma de medir la capacidad de una máquina.
  • 1951 – Marvin Minsky y Dean Edmonds construyen SNAR, la primera computadora de red neuronal.
  • 1956 – Se celebra la Conferencia de Dartmouth (organizada por McCarthy, Minsky, Rochester y Shannon), que marca el nacimiento de la IA como campo de estudio.
  • 1957 – Rosenblatt desarrolla el Perceptrón: la primera red neuronal artificial capaz de aprender.

(!!) Test de Turing: donde un evaluador humano entabla una conversación en lenguaje natural con una máquina y un humano.

  • 1965 – Weizenbaum desarrolla ELIZA: un programa de procesamiento del lenguaje natural que simula una conversación.
  • 1967 – Newell y Simon desarrollan el Solucionador General de Problemas (GPS), uno de los primeros programas de IA que demuestra una capacidad de resolución de problemas similar a la humana.
  • 1974 – Comienza el primer invierno de la IA, marcado por una disminución de la financiación y del interés en la investigación en IA debido a expectativas poco realistas y a un progreso limitado.
  • 1980 – Los sistemas expertos ganan popularidad y las empresas los utilizan para realizar previsiones financieras y diagnósticos médicos.
  • 1986 – Hinton, Rumelhart y Williams publican Aprendizaje de representaciones mediante retropropagación de errores, que permite entrenar redes neuronales mucho más profundas.

(!!) Redes neuronales: modelos de aprendizaje automático que imitan el cerebro y aprenden a reconocer patrones y hacer predicciones a través de conexiones neuronales artificiales.

  • 1997 – Deep Blue de IBM derrota al campeón mundial de ajedrez Kasparov, siendo la primera vez que una computadora vence a un campeón mundial en un juego complejo.
  • 2002 – iRobot presenta Roomba, el primer robot aspirador doméstico producido en serie con un sistema de navegación impulsado por IA.
  • 2011 – Watson de IBM derrota a dos ex campeones de Jeopardy!.
  • 2012 – La startup de inteligencia artificial DeepMind desarrolla una red neuronal profunda que puede reconocer gatos en vídeos de YouTube.
  • 2014 – Facebook crea DeepFace, un sistema de reconocimiento facial que puede reconocer rostros con una precisión casi humana.

(!!) DeepMind fue adquirida por Google en 2014 por 500 millones de dólares.

  • 2015 – AlphaGo, desarrollado por DeepMind, derrota al campeón mundial Lee Sedol en el juego de Go.
  • 2017 – AlphaZero de Google derrota a los mejores motores de ajedrez y shogi del mundo en una serie de partidas.
  • 2020 – OpenAI lanza GPT-3, lo que marca un avance significativo en el procesamiento del lenguaje natural.

(!!) Procesamiento del lenguaje natural: enseña a las computadoras a comprender y utilizar el lenguaje humano mediante técnicas como el aprendizaje automático.

  • 2021 – AlphaFold2 de DeepMind resuelve el problema del plegamiento de proteínas, allanando el camino para nuevos descubrimientos de fármacos y avances médicos.
  • 2022 – Google despide al ingeniero Blake Lemoine por sus afirmaciones de que el modelo de lenguaje para aplicaciones de diálogo (LaMDA) de Google era sensible.
  • 2023 – Artistas presentaron una demanda colectiva contra Stability AI, DeviantArt y Mid-journey por usar Stable Diffusion para remezclar las obras protegidas por derechos de autor de millones de artistas.

Gráfico: Open Tech / Genuine Impact

Entradas relacionadas

#ajedrez #AlphaFold2 #AlphaGo #AlphaZero #aprendizajeAutomático #artículo #artistas #aspirador #BlakeLemoine #ConferenciaDeDartmouth #copyright #DeanEdmonds #DeepBlue #DeepFace #DeepMind #DeviantArt #ELIZA #Facebook #gatos #GenuineImpact #Go #Google #GPS #GPT3 #gráfico #Hinton #IA #IBM #infografía #inteligenciaArtificial #iRobot #Jeopardy_ #Kasparov #LaMDA #LeeSedol #MarvinMinsky #McCarthy #McCullock #MidJourney #modelos #Newell #OpenTech #OpenAI #patrones #Perceptron #Pitts #plegamientoDeProteínas #predicciones #procesamientoDelLenguajeNatural #reconocimientoFacial #redesNeuronales #remezclar #robot #Rochester #Roomba #Rosenblatt #Rumelhart #Shannon #shogi #Simon #sistemaDeNavegación #SNAR #StabilityAI #StableDiffusion #testDeTuring #Turing #vídeos #Watson #Weizenbaum #Williams #YouTube

martin voggenbergerllightcb
2025-02-06

i doubt that most of humanity has any 'idea' what it would be like to be 'truly' intelligent. and i don’t mean ‘intelligence’ in the context of being clever or doing complex calculations. it takes no true intelligence for that — it’s computational. in the near future, we won’t even need all these clever ones; everything they do can be a automated. the alphago event was a great insight into what's to come.

youtu.be/WXuK6gekU1Y?list=LL

Rod2ik 🇪🇺 🇨🇵 🇪🇸 🇺🇦 🇨🇦 🇩🇰 🇬🇱rod2ik.bsky.social@bsky.brid.gy
2025-02-02

Le moment #DeepSeek (2025) est la conséquence du moment #AlphaGo (2010) de #Google #Deepmind : il a été vécu comme le moment #Spoutnik (1957) de la #Chine pour l' #IA #AI www.numerama.com/tech/1894778...

Comment AlphaGo a joué un rôle...

Rod2ik 🇪🇺 🇨🇵 🇪🇸 🇺🇦 🇨🇦 🇩🇰 🇬🇱rod2ik
2025-02-02

Le moment (2025) est la conséquence du moment (2010) de : il a été vécu comme le moment (1957) de la pour l'

numerama.com/tech/1894778-alph

rexirexi
2024-12-27

techxplore.com/news/2024-12-ai

started with a general-purpose version of the (which…can spend more time "thinking" about difficult questions) and then trained it specifically for the ARC-AGI test.

French researcher Francois Chollet…believes o3 searches through different "chains of thought" describing steps to solve the task. It would then choose the "best"…"not dissimilar" to how system…beat the world Go champion.

🅴🆁🆄🅰 🇷🇺erua@hub.hubzilla.de
2024-11-12
Странное чувство при осознании того, что видео-карта приобретена не только ради нормальной картинки в играх. Что эта вычислительная мощность активно используется и во время других игр, но где нужны обдуманные и взвешенные ходы, а не обсчёт задачек ради 3d-графики.

Например, игра в #Го — движки способные заменить людей выполняют неслабые такие нейросети в комбинации с #MCTS (Monte-Carlo Tree Search).

Сперва это был #LeelaZero, являющийся повторением #AlphaGo Zero согласно его оригинальному описанию.

Теперь это #KataGo, в целом аналогичная, но с рядом доработок заточенных под игру #Го и активно развиваемая/тренируемая, в то время как, работы над #LeelaZero прекратились в районе 2021 года.

Очень может быть, что в скором времени, компьютерам нужна будет видеокарта как универсальный ускоритель общего назначения. Используемый и в локальных системах представления и анализа данных — самое элементарное создания динамических отчётов (dashboard'ов) заточенных под конкретного пользователя. Например, это могут быть различные «ассистенты», выполняющиеся на компьютере пользователя, к которым человек обращается с поручениями что-то узнать или выяснить.

Ускорять специфичным «железом» (#VLIW, #TensorFlow ) надо будет не только парсинг/разбор запросов от человека на естественно языке (голосом, текстом), но и всю ту работу, которая должна быть проведена при создании запрошенного.

#AI #ИИ #games #gaming #го #igo #baduk #бадук #weiqi #вэйци #OpenCL #hardware #lang_ru
🅴🆁🆄🅰 🇷🇺erua@hub.hubzilla.de
2024-11-08
Попробовал как играют современные нейронки в #Го на домашнем десктопе с простенькой видяхой, open source варианты, свободные.

Затем, что современные значимые и серьёзные успехи «искусственного интеллекта» пошли в массы с эпопеи вокруг #AlphaGo, которое за три-четыре года развития изменилось сильно и в размерах и скорости работы, хорошо задокументировано и всячески изучено.
Так вот, прошло изрядно лет уже с тех пор как AlphaGo остановилось в развитии, достигнув апогея (AlphaGo Zero), и где свободные аналоги? Пусть и заточенные именно для игры в Го и только для неё.

Отыскался движок KataGo, вроде по тем же принципам, что и последние варианты AlphaGo, с уже обученными сетками, которые регулярно обновляются дообучаясь.

#KataGo вариант использующий видеокарту, #OpenCL, сходу не завёлся — пришлось погонять сперва вариант для #CPU, чтобы подобрать GUI для использования движка: #Sabaki, #q5Go.
Заценив работу движка и шум системы охлаждения процессора — уже переключился на OpenCL-вариант. Для чего пришлось сносить из системы всё про #Mesa и ставить «opencl-amd» на #ArchLinux.

И оно того стоит, не только потому что реально быстрее работает в плане ходов да подсчёта всякой аналитики, но главное комп перестал надрываться работой системы охлаждения. Памяти на видяхе KataGo отжирает порядка гигабайта, может полутора. Однако, у меня и режим работы выбран с дополнительной нейронкой для подражания человеку в плане манеры игры, ссылки на этот вариант работы движка есть в readme.

Планшеты и мобильники?
Для #android тоже есть вариант KataGo — зовётся #BadukAI, доступен и в Google'ом и Amazon'овском маркете ссылка, а так же через альтернативные клиенты. Если в #Aurora не работает вдруг поиск, то ссылку ту можно открыть/отправить в #Aurora и откроет спокойно.

Что на счёт GUI?
Прежде чем гонять движки разные, имеет смысл опробовать GNU Go — это который про игру в #Го с компьютером, оно же «Бадук» у корейцев и «Вэйци» у китайцев (откуда якобы и пришло). GNU Go есть у всех #linux в репозиториях и доступен любому желающему поиграть в Го через #Kigo, #qGo, #q5Go, #Sabaki, #KaTrain, #Lizzie.
Если выбранная GUI'шная софтина работает с GNU Go, то будет работать (должны) и со всякими другими движками для игры в Го, потому что используется gtp режим.

Сложность лишь в том, что порой GNU Go путают с GNU'шным компилятором Golang — который называется иначе: GCC Go.

Альтернативы нейронкам?
Есть вариант сугубо на базе #MCTS (который Monte Carlo tree search) — ощутимо получше GNU Go и более относительно современное — #Pachi
Работает на десктопе #Pachi серьёзно нагружая систему, а так же имеет кучу заморочек по настройкам. Например, на тему подключения дополнительного движка ради нормальной игры в #joseki, не сказать чтобы весёлый вариант.
Однако, если ставить на android-устройство, то существует небольшой вариант, размером менее трёх мегабайт, который вполне шустро работает.

#AI #ИИ #games #gaming #го #igo #baduk #бадук #weiqi #вэйци #lang_ru @Russia
Mohammad HajiaghayiMTHajiaghayi@mathstodon.xyz
2024-10-14

🚀 New lessons in Computational Game Theory are live! 📚

Dive into Perfect Information Extensive Form Games and Game Tree Search with Lessons 14 & 15:

🎮 Lesson 14: youtu.be/-fT5spD7Hvw
🤖 Lesson 15: youtu.be/ZMKgNxjV6ro

Explore concepts like Nash equilibrium, Minimax, and alpha-beta pruning in games like chess. Join us every Wednesday at 7pm ET for more!

🔗 Playlist: youtube.com/watch?v=9_1SPYFfLs

#GameTheory #AI #ReinforcementLearning #AlphaGo #NashEquilibrium

Arne BabenhauserheideArneBab@rollenspiel.social
2024-10-07

When #AlphaGo cracked #Go, the holy grail of game #AI, it proved that there are problems that we can currently only solve via a machine learning approach.

Other approaches never managed more than mediocre play, AlphaGo beat the world class.

Nine years later there are two types of AI:

- Type 1 solves such problems.
- Type 2 is #bullshit.

draketo.de/zitate#alpha-go-nin

A Beamer-LaTeX rendering of the quote.
2024-09-29

I had long procrastinated listening to Lex Fridman's interview with David Silver about #alphago Linking below to my favorite part of the conversation, where he discusses self play and why there is no ceiling to improvements with increased computing power...

youtu.be/uPUEq8d73JI?t=4512&si

Client Info

Server: https://mastodon.social
Version: 2025.04
Repository: https://github.com/cyevgeniy/lmst