i
Полезная информация
Свернуть
21.11.2024
ruensvdefrptesitzharnl

Вопрос программистам на засыпку

Вопрос программистам на засыпку

Уважаемые программисты, вопрос на засыпку: как, по-вашему, работает нейросеть, которая домысливает, с какой вероятностью за данным словом последует другое слово?
Я так понимаю, нейросеть обрабатывает кучу текстов, и заполняет для себя какие-то базы данных? Например, берет какое-то слово и выносит в таблицу все слова, которые могу следовать за данным словом, плюс частота появления этого слова за предыдущим словом?
То есть, правильно я понимаю, что в нейросетях есть какие-то базы данных, иначе как она «запомнит» слова?
Или какой-то иной принцип действия без заполнения баз данных?

17:04
538
0
Aagira Aagira 4 года назад #
Мне иногда это тоже интересно… Особенно если поглядеть, какие слова иногда предлагает поиск или телефон для подстановки. ch_lol
Могу наивно предположить, что сочетаемость определяется где-нибудь так. Таблица сочетаемости слов, столбцы типа «ид», «слово», «характеристики подставляемого слова (часть речи, падеж и пр.)», «подставляемое слово (ид)». В последнюю ячейку выбираются слова, скажем, из этой же таблицы. А заполняются два последних столбца как-нибудь по результату фильтрации. Где-то еще заполняется автоматом таблица всех сочетаний, которые появляются в системе (на сайте, скажем), фильтруется по первому слову и подсчитывается частота употреблений второго слова. Думаю, я ошибаюсь. ch_lol
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Таблицы всех сочетаний? То есть, всё-таки базы данных у них есть! То есть, правильно я делаю таблицу — существтиельные + прилагательные, каким может быть это существительное. Существительные + глаголы, что может делать это существительное. Глагол + наречие, что может делать этот глагол. Глагол + существительное, с которым делают этот глагол — копают что, землю, чем, — лопатой.
0
Aagira Aagira 4 года назад #
Базы данных будут по-любому. Вопрос в их структуре.
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Да, это вопрос… А уж с пополнением базы данных застрелиццо и не встать. Казалось бы — найди в тексте существительное, найти слово перед ним, если это слово есть в таблице прилагательных, свяжи пару прилагательное + существительное. Так окончания-то мешают… Вон, Собака Баскервилей… «если не считать тех нередких случаев...» Был бы — нередкий случай, было бы проще, а вот фиг. Или найди существительное с вхождением 90-80%…
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Меня еще пугают огромные объемы баз данных, это же сколько сочетаний будет, застрелиццо и не встать…
0
Aagira Aagira 4 года назад #
Ну, база данных нашего сайта сейчас составляет порядка 130 мб. Это со всеми текстами. Вроде проблем немного (правда, phpMyAdmin уже отказывается их скачивать, приходится таскать другими путями). Но учитывая, сколько тут текстов и еще больше флуда, думаю, твой словарик вряд ли будет намного больше. При условии, что он будет динамически обновляемым (как только другое слово стало чаще встречаться в сочетании с основным — сразу меняются данные).
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Частоту встречаемости мне не надо, мне просто — какой предмет каким может быть, какой предмет что может делать. дом может стоять, не может летать и пить чай. Если надо отпустить дом на волю, пусть делает, что хочет — отключаю эту опцию.
0
Aagira Aagira 4 года назад #
По картинке. Напомнило меня в школе, когда у меня еще не было компьютера, а я начала изучать информатику. Пришлось вырезать клавиатуру из картона. ch_balloon
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Это в в какой-то книжке по информатике детской было — склей компьютер… развертка… crazy
0
Aagira Aagira 4 года назад #
Ага, и это тоже делала! ch_lol
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
И до сих пор ё-моё, нет кода для поиска слова и вставки в таблицу. Чтобы — открой текст, найди существительное, найди рядом с ним прилагательное, запиши в таблицу пару существительное + прилагательное
0
Aagira Aagira 4 года назад #
Так проблема в том, чтобы отличить существительное от прилагательного?
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Ну я там ниже написала: Найти существительное и найти, какие рядом с ним прилагательные. чтобы программа запомнила, что кактус бывает зеленый, но не бывает железный, что кот бывает пушистый, но не бывает квадратный… хотя…

0
Aagira Aagira 4 года назад #
Ну, существительное в одной ячейке, список прилагательных — в другой. Соответственно, выбирается одно прилагательное (на первых порах — случайно). Ох, я вижу сама, что ходим кругами. Выбрать из текста сочетания — найти слово и следующее за ним. Найти все появления этого слова в тексте, внести во вторую ячейку все виды второго слова и частоту их употребления. Выбирать к первому слову только те, которые употреблялись с ним 2 и больше раз.
Поток сознания у меня тут, похоже…
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Частоту не надо. Просто, что с чем сочетается. Кажется примитивно, но как это реализовать даже на стадии — найди существительное, то бишь — возьми слово в тексте, сравни с таблицей существительных…
0
Aagira Aagira 4 года назад #
Частота просто поможет отобрать слова сочетаемые, а не «кот квадратный», потому что кому-то одноразово в голову взбрело так написать.
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Ну, такие перлы можно даже потом врукопашную выполоть, если пара квадратных котов вылезет. Д в любом случае после заполнения базы данных придется вручную поправлять
0
Дикий Запад Дикий Запад 4 года назад #
так они стихи начнут писать и рассказы со сказками, а про программное обеспечение и думать перестанут laugh
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Именно это я и хочу сделать.
Чёрт возьми, как найти на странице текста в интернете слова, которые есть у меня в базе данных на MySql?
Чтобы программа, чёрт бы её драл, взяла отдельное слово, сравнила со словами в таблице, сказала, есть такое слово или нет? devil
0
Дикий Запад Дикий Запад 4 года назад #
ну у вас и желания… не могут они слова вравнивать пока, сто раз перевернёшь, пока выдаст что-то невразумительное laugh
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Что тут переворачивать, чтобы найти в тексте слово, которое есть в таблице?
0
Дикий Запад Дикий Запад 4 года назад #
Это же компьютер, набираю фразу, вылекает что угодно, только не то, что написал
0
Aagira Aagira 4 года назад #
Это в тему «помучайся»? laugh
0
Дикий Запад Дикий Запад 4 года назад #
ага laugh rose
0
Aagira Aagira 4 года назад #
Именно в интернете?
Если текст поместить в отдельную ячейку и сделать выборку по тому или иному слову?
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Учитель обустроил меня на своем хостинге, когда я пытаюсь что-то искать в текстах на компе, программа их не видит. А сайты видит. Но тут, мне кажется, надо решать всю задачу целиком, а кусочки-кусочки, потом окажеццо, один кусочек к другому не подходит.

Открыть файл по ссылке в интернете
(разобраться с кодировками)
Дальше цикл:
Найти отдельное слово (выделенное пробелами и знаками препинания)
Сравнить слово со словами в таблице прилагательных (вхождение 80%)
Если не совпадает – искать следующее слово
Если совпадает – найти в таблице прилагательных индекс этого слова и внести в таблицу прилагательное + существительное в колонку – индексы прилагательных
Найти следующее слово, сравнить со словами в таблице прилагательных (вхождение 80%)
Если совпадает – найти в таблице прилагательных индекс этого слова и внести в таблицу прилагательное + существительное в колонку – индексы прилагательных
Если не совпадает – сравнить это слово со словами в таблице существительных
Если совпадает с существительными – найти индекс этого слова в таблице существительных и записать этот индекс в таблице прилагательное + существительное в одну строку с записанным индексом прилагательного
0
Aagira Aagira 4 года назад #
А можешь командами для БД написать? Я в описании этого цикла на третьем предложении поняла, что забыла первое…
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
В смысле, на языке РНР?
Так я ж не знаю, как оно будет, вот в чем беда

А алгоритм вот он. Предельно разложен по полочкам, чтоб программа поняла…

Кароч: найди прилагательное, найди существиетльное рядом с ним, запиши пару прилагательное — существительное.
0
Aagira Aagira 4 года назад #
Не на языке PHP, на SQL. Ну, вроде: SELECT FROM slova WHERE slovo LIKE "%кот%"
Поскольку твой код на php будет запросы к БД в таком виде делать.
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Это если из таблицы выбирать, а если из текста в интернете?
0
Aagira Aagira 4 года назад #
Скопировать текст в таблицу (я выше так предложила). Ну, а что еще можно, если текст чужой?
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Гхм, так Войну и Мир не очень-то скопируешь…
0
Aagira Aagira 4 года назад #
Почему? Она во многих интернет-читальнях лежит, значит, скорее всего, текст забит в базу данных.
Одна буква — один байт. Многабукав = нетакмногабайт по нынешним меркам.
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Нет, я к тому, что это ж какая таблица будет… каких размеров… Может, проще программе выискивать из текста на сайте, где эта война и мир сидит, типа, библиотеки Машкова?
0
Aagira Aagira 4 года назад #
Вот тут я не знаю. Если предполагается недолговременное хранение, рассчитанное только на анализ, то можно залить в таблицу. Не так уж страшно или критично будет. А если анализ нужен постоянный, то тут ты приходишь к теме интернет-бота (в хорошем смысле, вроде гугловских или подобных по СЕО). Только те, вроде бы, смотрят на метаинфу сайтов. Хотя… Вероятно, тексты страниц тоже лопатят на соответствие.
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
А что проще, залить в таблицу или выдергивать из текста слова?
0
Aagira Aagira 4 года назад #
М-м, я тут пас советовать. Просто это зависит от того, какой механизм проще написать. Я такщитаю. Проще, я думаю, будет спросить твоего учителя, чем меня. ch_tongueout
Просто поздравь меня с тем, что на днях я наконец-то за многие годы решилась открыть учебник по php. И поймешь цену моим советам. Нет, если что-то из практики подсказать — могу. Зависит от того, с какими задачами я сталкивалась, а с какими нет. Ну и пофантазировать — всегда пожалуйста.
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Поздравляю.
Меня сегодня хватило только на то чтобы после месяца каторжной работы над программой швырнуть учебник РНР в стену и напугать кота. Остаток дня пришлось успокаивать животное.
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
А я пока даже не врубаюсь, зачем программисты изучают несколько языков — в смысле, под конкретные задачи? Что этим языком проще сделать то, этим — это?
0
Aagira Aagira 4 года назад #

PHP для управления базой данных, JS для визуальных задач. Можно и PHP для отображения использовать. Это все интернет. Для экзешников свои языки (питон, да...). Для использования Юнити, которое мне так или иначе понадобится, питон, вероятно, придется отложить и начать изучать Си… Самую глупость я сделала в свое время, когда изучила бейсик. Ну, я об этом сто раз говорила.

0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Что же случилось с бейсиком?
0
Aagira Aagira 4 года назад #
Вышел из моды… sad
Если серьезно, то Майкрософт выдала новый вариант бейсика и под него запилила свою VisualStudio, а шестой бейсик остался на обочине. А я даже не знаю, какой бейсик я изучала, дело было ну о-очень давно (в 90-х).
Сейчас его можно и освежить в голове смеха ради, если найдется время. Но мне еще десять лет назад говорили, что не пригодится уже нигде.
0
Мария Фомальгаут Мария Фомальгаут 4 года назад #
Да, вот это тоже пугает… что все стремительно меняется, и делаю программу, которая может потерять актуальность… хотя нет, структура, построение текста, языка, мысли, это вне времени… по крайней мере на ближайшие несколько миллионов лет…
0
Aagira Aagira 4 года назад #
Суть в том, что «современный» бейсик существует. Только на момент, когда я с ним столкнулась, и когда поняла, что не могу никак установить на тогдашней винде среду для шестого бейсика (похоже, все-таки «мой» был он), я стала искать учебники по актуальной версии языка. И — пожалуйста. Язык есть, учебников нет. Все по шестому. В общем, я на него плюнула.
0
Aagira Aagira 8 месяцев назад #

4 года спустя:

Ну и ошибок же я поналяпала в этом комменте! Изображение

а) JS — тут поправлено.

б) Питон хрен экзешником сделаешь.

в) В Юнити, все же, C# (даже хорошо).

0
Aagira Aagira 4 года назад #
Ах да, на Яве добрая часть мобильных приложений пишется, как я понимаю.
Вопрос на засыпку: как можно показать людей, чтобы было непонятно, что это люди? По сюжету оцифрован...
Не спеша пишу повесть с лаконичным названием "42 километра". Сюжет прост и не оригинален на первый в...
Дамы и господа, очередной вопрос на засыпку. Из области физики и литературы. Как увидит четырехмерны...
Дамы и господа, вопрос на засыпку. Кто может вспомнить, как изменилась жизнь за последние двадцать л...

Все представленные на сайте материалы принадлежат их авторам.

За содержание материалов администрация ответственности не несет.