Comment faire une compile de musique légale from the web ?

Musique_from_the_web_allo_rap

La première étape consiste à récupérer plusieurs adresses de flux RSS qui concerne la musique, dans notre cas le hip-hop. Le problème de ce format de syndication, c’est qu’il propose une information non triée et de plus dépourvue de contenu exploitable directement s’il on passe justement par un service de trie comme FeedRinse (heureusement je te dévoile le moyen de régler ce problème d’exploitation plus loin dans le doc). Cependant, grâce à cet outil en ligne, tu peux classifier selon diverses critères le contenu qui arrive au fil de l’eau et de la sorte écarter celui qui ne t’intéresse pas dans le cadre de ta veille documentaire…

Feedrinse_allo_rap

Une fois que tu a créé un compte gratos chez FeedRinse, tu ajoutes toutes les adresses d’abonnement RSS que tu veux dans ton profil. Ensuite il va te falloir créer une « Channel » (chaîne), dans notre cas elle va s’appeler « Freestyle ». Tu peux même retirer de cette chaîne les flux qui te paraissent inutiles, cela n’affecte pas la base des flux importés précédemment.

Feedrinse_channel_allo_rap

Ce tutoriel s’oriente donc vers le thème précis de la récupération de différents supports sonores, mais peut être très facilement réadapté pour d’autres médias et formats. Pour nous, il suffit donc que le mot-clé (ou la combinaison de mots clés si on souhaite) apparaisse dans un article de blog ou de sites Internet (et donc dans la description RSS) pour qu’il y ait une chance qu’il satisfasse notre volonté documentaire. Cela ne marche pas à 100 % bien évidemment, mais c’est quand même un travail énorme que va accomplir FeedRinse pour toi puisqu’il va te proposer en sortie que ce qui t’intéresse, plus quelques informations supplémentaires que l’on qualifiera de « parasite ».

Justement la sortie de FeedRinse n’est ni plus ni moins qu’un flux RSS (on l’a dit tout à l’heure ne renfermant pas le contenu de l’article en fait mais un résumé). Tu pourra choisir le logiciel de ton choix pour les aspirer et les stocker (pourvu que l’on puisse exporter les messages). Pour ma part j’ai choisi Thunderbird qui est déjà mon client mail, ce qui me paraît être judicieux en gain de temps : unir dans un même endroit des informations qui arrivent en temps réel.

Thunderbird_allo_rap

Notre flux « Freestyle » a rapporté dans la période allant de mi-novembre 2011 au 1er janvier 2012, 135 messages dans Thunderbird. Ces données sont malheureusement brutes et inutilisables tout de suite. Alors bien sûr on pourrait ouvrir un par un tous les items, ce qui peut être faisable quand il y’en a qu’une vingtaine mais pas dans notre cas. Moi, je vais demander à exporter ceux-ci sous la forme de fichiers EML (sélection + clique-droit / save as).

Eml_allo_rap

Grâce au logiciel Notepad++, je vais pouvoir extraire l’URL de la source de chacun des 135 articles (URL qui pointent vers le contenu bel et bien exploitable). Grâce aux expressions régulières du module « Remplacer », je peux encercler cet URL avec une balise HTML de lien (<a href= » >…</a>). Ce choix est pris en raison de la méthode d’ouverture de ces liens dans Google Chrome, que nous verrons ultérieurement dans cet article.

Extraction_allo_rap

Arrivé là, il nous faut nettoyer tout ce qui pourrait être source de problèmes en vue du résultat qu’on souhaite dans un premier temps : un simple fichier HTML affichant une liste de liens assez austère. Avec l’expression régulière que j’ai utilisée pour remplacer les URL par des links, j’ai également marqué d’un caractère spécial « § » les lignes concernées par ces modifs dans les 135 fichiers :

Recherche : (.*)Content-Base: (.*) Remplacer par : §<p><a href= »\2″ >\2</a></p>

Extraction_allo_rap

Pourquoi marquer les lignes traitées à ton avis ? Tout simplement pour effacer les lignes « parasites » qui ne contiennent pas ce marqueur :

Recherche : ^[^§].*$ Remplacer par : 

Il reste une ultime étape pour exploiter ces 135 liens dispersés dans 135 fichiers, il faut concaténer ces derniers en un seul. Dans l’urgence de l’écriture de cet article je me suis dirigé vers la seule méthode que je connaissais pour faire cela sans trop me compliquer la vie, c’est-à-dire la commande cat sous Linux (j’ai utilisé une machine virtuelle sous Xubuntu). Voici cette commande : cat *.eml > links.html

Cat_allo_rap

Voilà ! Nous avons réussi à partir de six ou sept sites à créer une page Internet contenant tous les liens relatifs à un sujet précis en provenances de ces websites sur une période d’environ deux mois.

Il est maintenant temps de t’expliquer pourquoi j’ai choisi un fichier HTML comme classeur de links : par ce que le plug-in Linkclump disponible pour Chrome, permet en faisant un rectangle de sélection avec ta souris d’ouvrir une liste de liens dans des nouveaux onglets de manière automatique (malheureusement il ne faut pas que le fichier soit en local il faut donc le déposer sur un serveur HTTP avec nom de domaine, pourquoi pas un gratuit comme Free). Cela est bien pratique cette ouverture multiple. Bien sûr nous n’allons pas ouvrir les 135 liens en une seule fois à moins de posséder un écran géant accompagné d’un ordinateur de la NASA, il faut plutôt procéder par étapes mon cher ami.

Linkclumb_allo_rap

Pourquoi les ouvrir d’ailleurs tous ces liens ? Et bien pour regarder quel format est utilisé par l’article pour transporter le son : YouTube, fichiers à télécharger, lecteur MP3 embarqué etc. il y a pas mal de médias différents en la matière. Et suivant celui-ci la méthode d’extraction ne sera pas la même…

2dope_boyz_allo_rap

Pour tout ce qui est hébergeur possédant un lecteur comme YouTube ou SoundCloud, tu peux te constituer une petite liste de téléchargement qui sera parfaitement géré par le logiciel JDownloader. Ce dernier te propose sympathiquement d’extraire le son des vidéos quand il le peut. Bien sûr il y a des hébergeurs récalcitrants comme Hulkshare qu’il faudra dowloader à la main ou bien encore des formats vidéo MP4 à l’image de Vimeo, qui nécessiteront un traitement ultérieur avec un autre logiciel spécialisé (sachant que JDowloader n’est pas capable d’extraire la piste son), mais dans 90% des cas JDownloader téléchargera gratuitement la liste qu’on lui fournie ce qui est un autre gain de temps non négligeable par rapport à un téléchargement à la mano…

Jdownloader_allo_rap

Voici donc la fin de ce tutoriel, il ne reste plus qu’à zipper l’ensemble des fichiers pour pouvoir les proposer en téléchargement par exemple ou en faire ce que l’on souhaite. D’ailleurs j’ai réalisé un pack de freestyle MP3 en suivant cette méthode, servant de support à l’élaboration du document que tu es en train de lire (comme tu peux le voir dans les différents screenshots).

Share

Laisser un commentaire