Добрый день. У меня имеется обширная база синонимов, однако она не много не корректная. Некоторые синонимы не совсем являются синонимами. Поэтому нужны добровольцы, которые могли бы эту базу немного довести до ума.
Как собиралась сама база:
- В нее входят несколько купленных баз;
- В нее входят синонимы взятые из разных программ синонимайзеров.
- В нее входят слова взятые из различных книг. Каких не буду говорить.
- Для каждого слова найдена начальная форма слова. Для всех начальных форм найдены все словоформы. Это все собрано вместе. По имеющейся базе данных методом перебора найдены варианты совпадений.
В результате получено несколько миллионов синонимов. Но в силу выполнения этой работы в автоматическом режиме есть некоторые не соответствия.
Мой вариант решения проблемы:
- Взять какую-то часть этих синонимов (скажем 5000) и дать на проработку нескольким людям. Желательно, чтобы с одним фрагментом работали 3-4 человека.
- Потом сравнить результаты. Если результаты 2 людей и более в какой-то корреляции совпадают, то дальше работаем с данными этих людей. Если 2 и более человек дали приблизительно одинаковые результаты, а те кто в меньшинстве дали результат сильно отличающийся, то есть большая доля вероятности, что люди выполняли эту работу халатно, спустя рукава или просто у них не стандартное мышление, которое лучше не учитывать.
- Для всех слов сводить результаты «можно заменить» и «нельзя заменить». Вывести по определенной формуле что некоторые слова являются синонимами, некоторые не являются, а некоторые иногда являются синонимами, а иногда и не являются.
- Тем людям, которые работают с этой базой я отправляют полученные результаты, которые в 2-5 раз больше объема выполненной работы. Все зависит от количества людей, которые будут участвовать в проекте. Чем больше людей, тем эта цифра выше.
Для работы нужно не менее 8 человек. А вообще, чем больше тем лучше. Необходимо приблизительно указывать время которое вам необходимо на выполнение работы (определенного объема). Это нужно для планомерного распределения заданий.
Все выборки я буду предоставлять людям в случайном порядке. Те кто получат эти базы обязуются не выкладывать их в свободный доступ. Продавать – пожалуйста, только не выкладывать в свободный доступ. На того, кто нарушит эту договоренность будет наложено проклятие))). Шутка. Нет, дело в том, что любая информация находящаяся в открытом доступе теряет свою значимость, а это никому не нужно. Или я не прав?
Если есть какие-то замечания или вопросы, то милости прошу к диалогу.
Как собиралась сама база:
- В нее входят несколько купленных баз;
- В нее входят синонимы взятые из разных программ синонимайзеров.
- В нее входят слова взятые из различных книг. Каких не буду говорить.
- Для каждого слова найдена начальная форма слова. Для всех начальных форм найдены все словоформы. Это все собрано вместе. По имеющейся базе данных методом перебора найдены варианты совпадений.
В результате получено несколько миллионов синонимов. Но в силу выполнения этой работы в автоматическом режиме есть некоторые не соответствия.
Мой вариант решения проблемы:
- Взять какую-то часть этих синонимов (скажем 5000) и дать на проработку нескольким людям. Желательно, чтобы с одним фрагментом работали 3-4 человека.
- Потом сравнить результаты. Если результаты 2 людей и более в какой-то корреляции совпадают, то дальше работаем с данными этих людей. Если 2 и более человек дали приблизительно одинаковые результаты, а те кто в меньшинстве дали результат сильно отличающийся, то есть большая доля вероятности, что люди выполняли эту работу халатно, спустя рукава или просто у них не стандартное мышление, которое лучше не учитывать.
- Для всех слов сводить результаты «можно заменить» и «нельзя заменить». Вывести по определенной формуле что некоторые слова являются синонимами, некоторые не являются, а некоторые иногда являются синонимами, а иногда и не являются.
- Тем людям, которые работают с этой базой я отправляют полученные результаты, которые в 2-5 раз больше объема выполненной работы. Все зависит от количества людей, которые будут участвовать в проекте. Чем больше людей, тем эта цифра выше.
Для работы нужно не менее 8 человек. А вообще, чем больше тем лучше. Необходимо приблизительно указывать время которое вам необходимо на выполнение работы (определенного объема). Это нужно для планомерного распределения заданий.
Все выборки я буду предоставлять людям в случайном порядке. Те кто получат эти базы обязуются не выкладывать их в свободный доступ. Продавать – пожалуйста, только не выкладывать в свободный доступ. На того, кто нарушит эту договоренность будет наложено проклятие))). Шутка. Нет, дело в том, что любая информация находящаяся в открытом доступе теряет свою значимость, а это никому не нужно. Или я не прав?
Если есть какие-то замечания или вопросы, то милости прошу к диалогу.