Запись за 20.11.2017 20:53:57 +0200

понедельник, 20 ноября 2017

21:53

Stalkert

И это всё МОЁ

Анализ степени дублирования кода на GitHub.

Представлены результаты изучения дублирования кода в общем объёме исходных текстов, размещённых на GitHub. Проанализировано 4.5 млн различных проектов (без форков репозиториев), включающих более 428 млн файлов с кодом на языках Java, C++, Python и Javasсript. Из этих файлов лишь 85 млн оказались уникальными, т.е. 80% кода на GitHub являются копиями других файлов.

Определение дубликатов выполнялось несколькими методами: путём сравнения хэшей файлов (полные копии), хэшей сгруппированного набора токенов из файла (не учитывает форматирование и комментарии) и оценки частичного заимствования кода при помощи SourcererCC (определён отредактированный код с 80% общих токенов).

Наиболее часто дубликаты встречаются в коде на языке Javasсript, для которого лишь 6% файлов не совпадают (т.е. 94% файлов являются полными клонами 6% файлов), 5% не совпадают по хэшу набора токенов и 2% отличаются с учётом редактирования кода. Наименьшее число дубликатов выявлено для кода на языке Java, для которого не повторяется 60% файлов, 56% наборов токенов и 26% отличаются с учётом редактирования кода. Для C++ эти показатели составляют 27%, 23% и 10%, а для Python - 29%, 27% и 9%.
Продолжение:
Анализ степени дублирования кода на GitHub

URL записи

URL

Поделиться

Обнимет, закопает в пески.... Хочу на Карнавал в Гелен... Одни люди склонны искать ответы и решения в прошлом, друг... утром лежала в постели обнимаясь с телефоном, переодическ...

меня переключило что-то на грустную такую музычку...повод... наканифолила вчера свою квартиру, все блестит, аж глаза л... Последние дни замечал на улицах и в транспорте очень мног...

Комментарии

Добавить комментарий

Расширенная форма

Редактировать

Использовать аватар

Изображения

Подписаться на новые комментарии


Запомнить

Записки не очём

Запись за 20.11.2017 20:53:57 +0200